Apache NiFi - SplitText处理器出现 OutOfMemory 错误：GC overhead limit exceeded

Question

Apache NiFi - SplitText处理器出现 OutOfMemory 错误：GC overhead limit exceeded

javagarbage-collectionhortonworks-data-platformapache-nifihortonworks-sandbox

8

我正在尝试使用HDF 1.2中的NiFi处理大型CSV文件（每个文件可能有数十亿条记录）。我已经实现了我的工作流程，并且对于小文件，一切正常。

问题在于，如果我尝试将文件大小增加到100MB（1M条记录），SplitText处理器负责将文件拆分为单个记录时会出现java.lang.OutOfMemoryError: GC overhead limit exceeded错误。我搜索了该错误，它基本上意味着垃圾收集器执行时间过长而没有获得足够的堆空间。我期望这意味着太多的流文件正在非常快地生成。

如何解决这个问题？我尝试更改nifi关于最大堆空间和其他相关内存属性的配置，但似乎没有什么作用。目前，我添加了一个中间SplitText，行数为1K，这使我避免了错误，但我认为当传入文件的大小变得更大时，这不是一个稳定的解决方案，我担心我将从处理器中得到相同的行为。

欢迎任何建议！谢谢。

- riccamini

2个回答

0

我在使用Apache NiFi中的GetMongo处理器时遇到了类似的错误。我将我的配置更改为：

Limit: 100
Batch Size: 10

然后错误消失了。

- Ahmad Tanha

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Bryan Bende · Accepted Answer

错误的原因是将1M个记录按行计数分割时，您正在创建1M个流文件，这等同于1M个Java对象。使用两个SplitText处理器的方法通常可以避免同时创建所有对象。您可能可以在第一个拆分上使用更大的拆分大小，例如10k。对于十亿条记录，我想知道第三级是否有意义，从10亿拆分到大约10M，然后从10M拆分到10K，再从10K拆分到1，但我需要进行测试。

考虑的一些其他事项包括增加默认堆大小512MB（您可能已经执行），以及确定是否确实需要拆分为1行。不了解流程的其他信息很难说，但在许多情况下，如果要将每行传递到某个地方，您可能可以拥有一个处理器，该处理器读取一个大型分隔文件并将每行流式传输到目标位置。例如，PutKafka和PutSplunk就是这样工作的，它们可以接收具有1M行的文件并将每行流式传输到目标位置。