是否可以将Spark RDD文本文件保存为gzip格式?
我能否以某种方式运行以下代码:combPrdGrp3.repartition(10).saveAsTextFile("Combined")
并将其保存为gzip文件?
是否可以将Spark RDD文本文件保存为gzip格式?
我能否以某种方式运行以下代码:combPrdGrp3.repartition(10).saveAsTextFile("Combined")
并将其保存为gzip文件?
使用
import org.apache.hadoop.io.compress.GzipCodec
combPrdGrp3.repartition(10).saveAsTextFile("Combined", classOf[GzipCodec])
或者
sc.hadoopConfiguration.setClass(FileOutputFormat.COMPRESS_CODEC, classOf[GzipCodec], classOf[CompressionCodec])
OutputFormat
,并在其中设置setOutputCompressorClass
。可能需要使用saveAsNewAPIHadoopFile
来实现。 - Daniel Darabos