Spark RDD保存为文本文件并使用gzip压缩

5

是否可以将Spark RDD文本文件保存为gzip格式?

我能否以某种方式运行以下代码:combPrdGrp3.repartition(10).saveAsTextFile("Combined") 并将其保存为gzip文件?


我认为你需要传入一个自定义的 OutputFormat,并在其中设置 setOutputCompressorClass。可能需要使用 saveAsNewAPIHadoopFile 来实现。 - Daniel Darabos
1个回答

6

使用

import org.apache.hadoop.io.compress.GzipCodec
combPrdGrp3.repartition(10).saveAsTextFile("Combined", classOf[GzipCodec])

或者

sc.hadoopConfiguration.setClass(FileOutputFormat.COMPRESS_CODEC, classOf[GzipCodec], classOf[CompressionCodec])

据我所知,默认情况下不支持lzo,对吗? - Barbaros Alp

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接