如何优化Apache Spark应用程序中的Shuffle Spill

Question

57

我正在运行一个带有两个工作节点的Spark流式应用程序。该应用包含联接和合并操作。

所有批次都成功完成，但是注意到Shuffle溢出指标与输入数据大小或输出数据大小不一致（溢出内存超过20倍）。

请在下面的图片中查找Spark阶段详细信息： enter image description here

经过调查，发现：

当Shuffle数据没有足够的内存时，就会发生Shuffle溢出。

Shuffle spill (memory) - 溢出时在内存中反序列化数据的大小

shuffle spill (disk) - 溢出后磁盘上数据的序列化形式的大小

由于反序列化数据占用的空间比序列化数据更大。所以，Shuffle溢出（内存）更多。

注意到这个溢出内存大小在有大量输入数据时非常大。

我的问题是：

这种溢出会显著影响性能吗？

如何优化此溢出内存和磁盘溢出？

是否有任何Spark属性可以减少/控制这个巨大的溢出？

- Vijay Innamuri

@mitchus 部分是的，我只是增加了任务数量并为洗牌分配了更多的内存。此外，我还优化了我的代码以压缩数据结构大小... - Vijay Innamuri

2个回答

7

为了补充上述答案，您还可以考虑将默认分区数（spark.sql.shuffle.partitions）从200（发生shuffle时）增加到一个使分区大小接近hdfs块大小（即128mb至256mb）的数字。

如果您的数据不均匀，可以尝试一些技巧来增加并行性，比如使用盐值对键进行处理。

- Prasad Sogalad

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Alister Lee · Accepted Answer

学习性能调优 Spark 需要进行大量的调查和学习。有一些很不错的资源，包括这个视频。Spark 1.4 版本在界面中具有更好的诊断和可视化功能，可以帮助您。

总之，当阶段结束时 RDD 分区的大小超过洗牌缓冲区可用内存量时，就会发生溢出。

您可以：

手动 repartition() 您之前的阶段，以便从输入中获得更小的分区。
通过增加执行器进程的内存（spark.executor.memory）来增加洗牌缓冲区的大小。
通过将分配给它的执行器内存的比例（spark.shuffle.memoryFraction）从默认值 0.2 增加到更大的值来增加洗牌缓冲区的大小。您需要归还spark.storage.memoryFraction。
通过降低工作线程（SPARK_WORKER_CORES）与执行器内存的比率来减少每个线程的洗牌缓冲区大小。

如果有专家在听，请告诉我更多关于 memoryFraction 设置如何交互以及它们的合理范围。