SOLR在读取/索引大型索引时出现内存溢出错误

3
我在使用Solr索引大量数据时遇到了OOM错误。我知道一般的建议是将索引划分为碎片,但实际上这已经是现状。我正在对碎片进行索引,并且进一步划分此时不是一个选择。我想了解发生了什么、为什么会出现此错误以及是否有其他方法可以处理它,而不仅仅是分割或分配更多内存。
如果这种情况下内存消耗是线性的(或更糟),那我会很难过,我希望它是次线性的。
我的情况是:我正在索引具有随机字符串的文档(因此词典非常大)。每个文档有几个20-30个字符的字段和一个200-500个字符的字段。每个碎片中的索引大小约为250-260GB ,每个Solr实例处理此索引时有大约4GB的内存。当OOM发生时,在重新启动后,Solr HeapDump看起来几乎相同,因此它可能与索引无关,而与Solr Searcher有关。就在OOM之前,heapdump的最大对象看起来像以下内容:
<tree type="Heap walker - Biggest objects">
  <object leaf="false" class="org.apache.solr.core.SolrCore" objectId="0xf02c" type="instance" retainedBytes="120456864" retainedPercent="97.4">
    <outgoing leaf="false" class="org.apache.solr.search.SolrIndexSearcher" objectId="0xfb52" type="instance" retainedBytes="120383232" retainedPercent="97.3" referenceType="not specified" referenceName="[transitive reference]">
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x1018e" type="instance" retainedBytes="8161688" retainedPercent="6.6" referenceType="not specified" referenceName="[transitive reference]"/>
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x10185" type="instance" retainedBytes="8148072" retainedPercent="6.6" referenceType="not specified" referenceName="[transitive reference]"/>
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x10188" type="instance" retainedBytes="8138232" retainedPercent="6.6" referenceType="not specified" referenceName="[transitive reference]"/>
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x10186" type="instance" retainedBytes="8129160" retainedPercent="6.6" referenceType="not specified" referenceName="[transitive reference]"/>
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x10191" type="instance" retainedBytes="8124608" retainedPercent="6.6" referenceType="not specified" referenceName="[transitive reference]"/>
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x1018a" type="instance" retainedBytes="8123144" retainedPercent="6.6" referenceType="not specified" referenceName="[transitive reference]"/>

      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x10192" type="instance" retainedBytes="8100904" retainedPercent="6.5" referenceType="not specified" referenceName="[transitive reference]"/>
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x10190" type="instance" retainedBytes="8097984" retainedPercent="6.5" referenceType="not specified" referenceName="[transitive reference]"/>
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x1018b" type="instance" retainedBytes="8096160" retainedPercent="6.5" referenceType="not specified" referenceName="[transitive reference]"/>
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x1018d" type="instance" retainedBytes="8081656" retainedPercent="6.5" referenceType="not specified" referenceName="[transitive reference]"/>
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x10187" type="instance" retainedBytes="8042504" retainedPercent="6.5" referenceType="not specified" referenceName="[transitive reference]"/>
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x1018c" type="instance" retainedBytes="8039336" retainedPercent="6.5" referenceType="not specified" referenceName="[transitive reference]"/>
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x10189" type="instance" retainedBytes="8036952" retainedPercent="6.5" referenceType="not specified" referenceName="[transitive reference]"/>
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x1018f" type="instance" retainedBytes="7948568" retainedPercent="6.4" referenceType="not specified" referenceName="[transitive reference]"/>
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x10195" type="instance" retainedBytes="832448" retainedPercent="0.7" referenceType="not specified" referenceName="[transitive reference]"/>

      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x10196" type="instance" retainedBytes="830584" retainedPercent="0.7" referenceType="not specified" referenceName="[transitive reference]"/>
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x10194" type="instance" retainedBytes="829232" retainedPercent="0.7" referenceType="not specified" referenceName="[transitive reference]"/>
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x10197" type="instance" retainedBytes="828808" retainedPercent="0.7" referenceType="not specified" referenceName="[transitive reference]"/>
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x10198" type="instance" retainedBytes="827312" retainedPercent="0.7" referenceType="not specified" referenceName="[transitive reference]"/>
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x10199" type="instance" retainedBytes="824736" retainedPercent="0.7" referenceType="not specified" referenceName="[transitive reference]"/>
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x1019a" type="instance" retainedBytes="822608" retainedPercent="0.7" referenceType="not specified" referenceName="[transitive reference]"/>
      <outgoing leaf="false" class="org.apache.lucene.index.ReadOnlySegmentReader" objectId="0x10193" type="instance" retainedBytes="783424" retainedPercent="0.6" referenceType="not specified" referenceName="[transitive reference]"/>
      <cutoff objectCount="96" totalSizeBytes="534976" maximumSingleSizeBytes="87560"/>
    </outgoing>

    <cutoff objectCount="53" totalSizeBytes="73496" maximumSingleSizeBytes="40992"/>
  </object>
  <object leaf="false" class="org.mortbay.jetty.webapp.WebAppClassLoader" objectId="0xdf88" type="instance" retainedBytes="420208" retainedPercent="0.3"/>
  <object leaf="false" class="org.apache.solr.core.SolrConfig" objectId="0xe5f5" type="instance" retainedBytes="184976" retainedPercent="0.1"/>
 ..... 

jmap简单转储显示如下:

Attaching to process ID 27000, please wait...
Debugger attached successfully.
Server compiler detected.
JVM version is 20.5-b03

using thread-local object allocation.
Parallel GC with 2 thread(s)

Heap Configuration:
   MinHeapFreeRatio = 40
   MaxHeapFreeRatio = 70
   MaxHeapSize      = 268435456 (256.0MB)
   NewSize          = 1310720 (1.25MB)
   MaxNewSize       = 17592186044415 MB
   OldSize          = 5439488 (5.1875MB)
   NewRatio         = 2
   SurvivorRatio    = 8
   PermSize         = 21757952 (20.75MB)
   MaxPermSize      = 85983232 (82.0MB)

Heap Usage:
PS Young Generation
Eden Space:
   capacity = 31719424 (30.25MB)
   used     = 17420488 (16.61347198486328MB)
   free     = 14298936 (13.636528015136719MB)
   54.92056854500258% used
From Space:
   capacity = 26673152 (25.4375MB)
   used     = 10550856 (10.062080383300781MB)
   free     = 16122296 (15.375419616699219MB)
   39.55608995892199% used
To Space:
   capacity = 27000832 (25.75MB)
   used     = 0 (0.0MB)
   free     = 27000832 (25.75MB)
   0.0% used
PS Old Generation
   capacity = 178978816 (170.6875MB)
   used     = 168585552 (160.7757110595703MB)
   free     = 10393264 (9.911788940429688MB)
   94.19302002757689% used
PS Perm Generation
   capacity = 42008576 (40.0625MB)
   used     = 41690016 (39.758697509765625MB)
   free     = 318560 (0.303802490234375MB)
   99.24167865152106% used

我在这里看不到任何提示如何处理它,除了增加更多的RAM,而在一般情况下这并不是一个解决方案。我想知道发生了什么,为什么Searcher和它的ReadOnlySegmentReaders占用了所有内存,他们真的必须这样吗?我可以做些什么吗?
更新: 我已经用一个较小的词典进行了测试,大约有15万个单词(不是随机单词),我达到了约350GB的索引大小,并没有出现OOME,所以这与索引大小没有直接关联,可能更多地与术语向量大小(唯一术语)有关。但我仍然希望了解我的限制以及如何绕过它们。

你使用的操作系统是什么?是64位还是32位? - Yavar
更新: 我已经使用大约15万个单词的较小字典进行了测试,达到了约350GB的索引大小,并且没有出现OOME,因此这与索引大小没有直接关系,可能更多地与术语向量大小(唯一术语)有关。但是,我仍然想了解我所拥有的限制以及如何绕过它们。 - ilfrin
你是否使用随机字符串作为测试数据?如果是这样的话,你可能想使用幂律(Zipf)分布而不是平均分布。Solr的许多算法都针对文本中通常出现的分布进行了优化。对于测试查询也是如此,因为查询的平均分布会导致缓存命中率不真实。 - Walter Underwood
@WalterUnderwood - 很有趣。是的,我之前使用的是随机字符串,在现在的主流项目中我使用了真实世界的文本生成器,我没有遇到那些问题,但是在一个分支中我仍然探索随机字符串版本,以便发现和理解我的系统将受到Solr强加的限制。所以目前我并不太关心缓存命中率,而是要理解为什么这样的数据语料库会导致整个系统因OOME而崩溃。 - ilfrin
1个回答

0

你需要自己将服务器群中的每个“分片”上的所有文档进行索引。Solr没有针对分布式索引的开箱即用支持,但是你可以采用简单的轮询技术:将每个文档索引到圆圈中的下一个服务器。一个简单的哈希系统也可以工作,Solr Wiki建议使用uniqueId.hashCode() % numServers作为足够的哈希函数。

请注意,Solr不计算通用术语/文档频率。在大规模情况下,虽然tf/idf是在分片级别计算的,但这可能并不重要 - 但是,如果你的集合在服务器分布方面严重倾斜,你可能会对相关结果有所异议。最好随机将文档分配到你的分片中。 注意>>>>>>> 尝试使用哈希码而不是随机字符串来索引文档


我觉得你没有理解我的问题。我正在索引分片。这是使用Hadoop并行完成的。鉴于我提到的特定文本语料库,这些分片在索引每个分片大约260GB的数据时会崩溃,而我已经知道这个OOM与索引大小没有直接关系,因为我索引了一些其他数据(不是随机字符串),给了我一个360GB的索引,而分片幸存了...无论如何,我猜你回答了一个不同的问题,感谢你的关注;) - ilfrin

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接