我了解textFile
基本原理,它可以为每个文件生成分区;而wholeTextFiles
则会生成一组键值对的RDD(Resilient Distributed Datasets),其中键是每个文件的路径,值是每个文件的内容。
现在,从技术角度来看,这两者有什么区别:
val textFile = sc.textFile("my/path/*.csv", 8)
textFile.getNumPartitions
val textFile = sc.wholeTextFiles("my/path/*.csv",8)
textFile.getNumPartitions
在这两种方法中,我都生成了8个分区。那么为什么我应该首先使用wholeTextFiles
,它相对于textFile
有什么好处呢?
在这两种方法中,我都生成了8个分区。那么为什么我应该首先使用wholeTextFiles
,它相对于textFile
有什么好处呢?