如何将联接操作后具有相同列名的dataframe写入CSV文件。目前我正在使用以下代码:dfFinal.coalesce(1).write.format('com.databricks.spark.csv').save('/home/user/output/',header = 'true')
它会将"dataframe" dfFinal 写入 "/home/user/output"。但在dataframe中包含重复列的情况下,该方法不能正常工作。以下是 dfFinal dataframe。
+----------+---+-----------------+---+-----------------+
| NUMBER | ID|AMOUNT | ID| AMOUNT|
+----------+---+-----------------+---+-----------------+
|9090909092| 1| 30| 1| 40|
|9090909093| 2| 30| 2| 50|
|9090909090| 3| 30| 3| 60|
|9090909094| 4| 30| 4| 70|
+----------+---+-----------------+---+-----------------+
上述数据框是在连接操作之后形成的。当尝试将其写入CSV文件时,出现以下错误。
pyspark.sql.utils.AnalysisException: u'Found duplicate column(s) when inserting into file:/home/user/output: `amount`, `id`;'