我正在尝试使用Spark SQL编写parquet文件。 默认情况下,Spark SQL支持gzip,但它也支持其他压缩格式,如snappy和lzo。 这些压缩格式有什么区别?
好的,我在网上进行了一番搜索,没有找到任何答案。我正在编写一个shell脚本,需要解压缩一个.lzo文件,但是我没有找到任何线索。有人有任何想法吗?我基本上是在读取一个带有时间戳的日志文件。我的脚本接受年、月、日作为参数。我能够定位到我的文件,但现在当我需要解压缩它时,我不知道如何处理.lzo...
我使用LZO压缩reduce输出。我尝试了这个:Kevin Weil的Hadoop-LZO项目,然后在我的作业中使用了LzoCodec类。 TextOutputFormat.setOutputCompressorClass(job, LzoCodec.class); 现在压缩已经正常工作...