我在HDFS中有很多文件,它们都是一个包含一个CSV文件的压缩文件。
我想要解压这些文件,以便可以对它们运行流作业。
我尝试了:
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar \
-D mapred.reduce.tasks=0 \
-mapper /bin/zcat -reducer /bin/cat \
-input /path/to/files/ \
-output /path/to/output
然而我遇到了一个错误(
子进程代码1失败
)。
我也尝试在单个文件上运行,同样出现了错误。
有什么建议吗?