Lucene索引的空间限制是什么?

6

我正在向Lucene索引中添加数十亿行,每行几乎有6000字节。Lucene索引可以添加的最大行数是否有限制?如果有数十亿行每行6000字节,这将占用多少空间?这种大小是否有限制?

1个回答

8
请参阅Lucene文档限制,它不能超过:
  • 大约2740亿个不同的术语
  • 大约21亿个文档
对于这样大规模的数据集,通常最好只使用Lucene的倒排索引,并将文档的实际内容存储在其他地方。您可以预计索引大小为原始文档语料库大小的约30%(如果这些是常规文档,则具有许多唯一术语的计算生成文档将生成更大的索引)。

1
这个部分在文档中消失了,可能是因为独特术语的限制已经不存在了。http://lucene.apache.org/core/6_5_0/core/org/apache/lucene/codecs/lucene62/package-summary.html - yura

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接