请参阅Lucene文档限制,它不能超过: 大约2740亿个不同的术语 大约21亿个文档 对于这样大规模的数据集,通常最好只使用Lucene的倒排索引,并将文档的实际内容存储在其他地方。您可以预计索引大小为原始文档语料库大小的约30%(如果这些是常规文档,则具有许多唯一术语的计算生成文档将生成更大的索引)。