我正在运行一个Spark计算应用程序,经常遇到任务被杀死的问题。以下是在我的Spark控制台中的显示: 可以看到,一些工作的描述中包含(_num_ killed: another attempt succeeded)。这不仅是失败了,而是有所不同。有人能解释一下是什么吗?
如果一个任务完成所需的时间异常长,Spark 可能会启动额外的复制任务,以便它们可以更快地完成。这被称为推测执行。如果其中一个副本成功了,其他副本则会被终止。 请查看以 spark.speculation 开头的参数:https://spark.apache.org/docs/latest/configuration.html