ElasticSearch和Cassandra的实际限制

24

我打算使用ElasticSearch对我的Cassandra数据库进行索引。我想知道有没有人看到过ElasticSearch的实际限制。在PB级别上,速度会变慢吗?此外,有人在使用ElasticSearch对Cassandra进行索引时遇到问题吗?

4个回答

25

请参阅此线程,它是2011年的内容,提到ElasticSearch配置有1700个分片,每个分片大小为200GB,总共将近1/3PB的数据范围。我期望ElasticSearch的架构支持几乎无限的横向扩展,因为每个分片索引都独立于其他所有分片。

实际上,这种做法的限制(也适用于其他解决方案)包括实际加载那么多数据所需的时间。管理这样大规模的Cassandra集群(或任何其他分布式数据存储)也需要大量的工作量,例如维护、负载平衡等。


2
谢谢DNA的回复,非常有帮助。 - Henry

13

Sonian是Kimchy在那个主题中提到的公司。我们在AWS上拥有超过petabyte的数据,分布在多个ES集群中。ES水平扩展并没有技术限制,但正如DNA所提到的,实践中存在问题。最大的问题是网络,这适用于任何分布式数据存储。你一次只能移动那么多数据。当ES需要从故障中恢复时,它必须移动数据。最好的选择是在更多节点上使用更小的分片(更高的并发传输),但你面临着更高的失败率和每字节昂贵的成本。


0
正如DNA所提到的,有1700个分片,但实际上不是1700个分片,而是有1700个索引,每个索引都有1个分片和1个副本。因此,这1700个索引很可能不会存在于单个机器上,而是分散在多台机器上。因此,这永远不会成为问题。

-1

我目前正在开始使用Elisandra(Elasticsearch + Cassandra)进行工作。

我也遇到了在elasticsearch中索引Cassandra的问题。我的问题基本上是节点配置。

通过执行$ nodetool status,您可以看到Host ID,然后运行:

curl -XGET http://localhost:9200/_cluster/state/?pretty=true

您可以检查其中一个node:Host ID具有相同的名称。


this not an answer - rwenz3l

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接