Spark Standalone - Tmp 文件夹

3

我正在使用集群节点上的Pyspark内核的Jupyter Notebook,问题是我的/tmp文件夹总是满的。我已经更新了参数:

SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.appDataTtl=172800"

问题在于该文件夹只有200GB,是否有办法在关闭Jupyter内核时告诉Spark进行清理?或者我应该将Dspark.worker.cleanup.appDataTtl设置为30分钟,这样每30分钟所有临时文件/日志都会被删除?

你可以尝试使用spark.cleaner.ttl属性吗?虽然我不确定它的工作原理,但我找到了一个参考,它可以清除中间数据。 - Vinod Chandak
谢谢回复,我会尝试的 : )。从文档中看来,它似乎适用于内存中的数据而不是写在磁盘上的数据。我认为这不是正确的方法,但我会尽力了解更多相关信息。 - Antonio Lisi
1个回答

1

谢谢您的回复,但我真的不想这样做,我需要尽可能多的空间,应该有一种方法可以删除所有无用的日志和文件(不像我现在手动操作),或者如果不需要就不生成它们(我只是在Jupyter中进行原型设计,然后将进入集群模式进行生产)。 - Antonio Lisi

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接