使用Pyspark并行写入Parquet文件。

Question

使用Pyspark并行写入Parquet文件。

pysparkdatabricksparquetazure-databricks

5

在Azure Databricks中，我希望使用python / pyspark从多个笔记本同时写入相同的parquet文件集。我对目标文件进行了分区，使得分区是不相交/独立编写的，根据databricks docs支持此操作。

然而，我的集群日志中一直出现错误，并且其中一个并发写操作失败。

Py4JJavaError: An error occurred while calling o1033.save.
: org.apache.spark.SparkException: Job aborted.
...
Caused by: org.apache.hadoop.fs.PathIOException: `<filePath>/_SUCCESS': Input/output error: Parallel access to the create path detected. Failing request to honor single writer semantics

这里是parquet文件写入的基本路径。

为什么会发生这种情况？_SUCCESS文件的作用是什么？我能否禁用它们以避免此问题？

- restlessmodem

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Steven · Answer 1

_SUCCESS 是一个空文件，它在整个过程的最后被写入以确认一切顺利。

您提供的链接仅涉及 delta 格式，这是一种特殊格式。显然，您正在尝试编写 parquet 格式文件，而不是 delta 格式。这就是为什么您会遇到冲突的原因。