监控Spark作业的内存使用情况

8
我们如何获取Spark作业的总体内存使用情况。我无法找到确切的参数来检索它。已经参考了Spark UI,但不确定我们可以参考哪个字段。此外,在Ganglia中,我们有以下选项: a)内存缓冲区 b)缓存内存 c)空闲内存 d)共享内存 e)空闲交换空间。
找不到任何与内存使用相关的选项。有人对此有什么想法吗?
1个回答

1
如果您持久化您的RDD,您可以通过UI查看它们在内存中的大小。
很难想象有多少内存用于中间任务(例如洗牌)。基本上,Spark会根据可用资源使用所需的内存。这意味着,如果您的RDD占用了超过50%的可用资源,则您的应用程序可能会变慢,因为可用于执行的资源较少。

感谢您的输入。是的,我们已经将RDD之一持久化在中间阶段,但要求是需要计算作业整个周期内的“内存使用量”或平均内存使用量。请问是否可以通过某些用户界面或其他工具来获取相关信息? - Sumit Khurana

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接