Spark Streaming：应用程序健康状态

Question

5

我有一个基于 Kafka 的 Spark Streaming 应用程序，每 5 分钟运行一次。在运行了 5 天后查看统计数据，发现以下几点观察结果：

问题：

- Mohitt

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Michael Spector · Accepted Answer

这真的取决于应用程序。我在调试此问题时的方法如下：

在存储选项卡下查看存储大小是否不断增长。如果有增长，这可能表明存在某种缓存资源泄漏。检查 spark.cleaner.ttl 的值，但最好确保在不再需要资源时取消缓存所有资源。
检查正在运行的作业的DAG可视化，并查看谱系是否不断增长。如果是这种情况，请确保执行检查点以削减谱系。
减少UI中保留的批次数量（spark.streaming.ui.retainedBatches参数）。
即使事件数相同，请查看任务处理的数据量是否随时间增长（Stages标签 -> 输入列）。这可能指向应用程序级别的问题。

我有相对复杂的Spark Streaming应用程序（Spark v1.6、v2.1.1、v2.2.0）在运行多天而没有性能下降，所以一定有一些可解决的问题。