我使用下面的代码:
我使用下面的代码:
csv.saveAsTextFile(pathToResults, classOf[GzipCodec])
pathToResults目录中有许多文件,如part-0000、part-0001等。 我可以使用FileUtil.copyMerge(),但它非常慢,它会下载驱动程序上的所有文件,然后将它们上传到Hadoop。但是,FileUtil.copyMerge()比以下方法更快:
csv.repartition(1).saveAsTextFile(pathToResults, classOf[GzipCodec])
如何在不重新分区和使用FileUtil.copyMerge()的情况下合并Spark结果文件?