在Azure Databricks中,我希望使用python / pyspark从多个笔记本同时写入相同的parquet文件集。我对目标文件进行了分区,使得分区是不相交/独立编写的,根据databricks docs支持此操作。
然而,我的集群日志中一直出现错误,并且其中一个并发写操作失败。
这里是parquet文件写入的基本路径。
为什么会发生这种情况?_SUCCESS文件的作用是什么?我能否禁用它们以避免此问题?
然而,我的集群日志中一直出现错误,并且其中一个并发写操作失败。
Py4JJavaError: An error occurred while calling o1033.save.
: org.apache.spark.SparkException: Job aborted.
...
Caused by: org.apache.hadoop.fs.PathIOException: `<filePath>/_SUCCESS': Input/output error: Parallel access to the create path detected. Failing request to honor single writer semantics
这里是parquet文件写入的基本路径。
为什么会发生这种情况?_SUCCESS文件的作用是什么?我能否禁用它们以避免此问题?