Apache Spark任务无法序列化。

Question

Apache Spark任务无法序列化。

4

我知道这个问题之前已经被问过了，但我认为我的失败原因不同。

            List<Tuple2<String, Integer>> results = results.collect();
            for (int i=0; i<results.size(); i++) {
                System.out.println(results.get(0)._1);
            }


Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task not serializable: java.io.NotSerializableException: tools.MAStreamProcessor$1 at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1214) at

我在Spark中有一个简单的'map/reduce'程序。上述代码行获取缩减步骤的结果并循环遍历每个结果元素。如果我注释掉它们，就不会出现错误。我避免使用'forEach'或简洁的for()，因为底层生成的元素可能无法序列化。我已将其简化为一个简单的for循环，所以想知道为什么仍然会遇到此错误。

谢谢， Ranjit

- Ranjit Iyer

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Daniel Darabos · Accepted Answer

使用-Dsun.io.serialization.extendedDebugInfo=true标志来打开序列化调试日志记录。它会告诉您无法序列化的具体内容。

答案与您粘贴的代码行无关。collect不是问题的源头，它只是触发RDD计算的东西。如果您不计算RDD，就不会将任何东西发送到执行器。因此，在早期阶段意外包含不可序列化的内容并不会在没有collect的情况下引起问题。