如何在Hadoop Streaming中读取ORC文件?

4

我希望在Python的MapReduce中读取ORC文件。我尝试运行以下命令:

hadoop jar /usr/lib/hadoop/lib/hadoop-streaming-2.6.0.2.2.6.0-2800.jar 
-file /hdfs/price/mymapper.py 
-mapper '/usr/local/anaconda/bin/python mymapper.py' 
-file /hdfs/price/myreducer.py 
-reducer '/usr/local/anaconda/bin/python myreducer.py' 
-input /user/hive/orcfiles/* 
-libjars /usr/hdp/2.2.6.0-2800/hive/lib/hive-exec.jar 
-inputformat org.apache.hadoop.hive.ql.io.orc.OrcInputFormat 
-numReduceTasks 1 
-output /user/hive/output

但是我收到了错误提示:
-inputformat : class not found : org.apache.hadoop.hive.ql.io.orc.OrcInputFormat

我发现一个类似的问题OrcNewInputformat作为Hadoop流的输入格式,但答案不够清晰。请给我一个示例,说明如何在Hadoop流中正确读取ORC文件。
1个回答

1

这是一个例子,我正在使用ORC分区的Hive表作为输入:

    hadoop jar /usr/hdp/2.2.4.12-1/hadoop-mapreduce/hadoop-streaming-2.6.0.2.2.4.12-1.jar \
-libjars /usr/hdp/current/hive-client/lib/hive-exec.jar \
-Dmapreduce.task.timeout=0 -Dmapred.reduce.tasks=1 \
-Dmapreduce.job.queuename=default \
 -file RStreamMapper.R RStreamReducer2.R \
-mapper "Rscript RStreamMapper.R" -reducer "Rscript RStreamReducer2.R" \
-input /hive/warehouse/asv.db/rtd_430304_fnl2 \
-output /user/Abhi/MRExample/Output \
-inputformat org.apache.hadoop.hive.ql.io.orc.OrcInputFormat 
-outputformat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat

这里的 /apps/hive/warehouse/asv.db/rtd_430304_fnl2 是HIVE表背景ORC数据存储位置的路径。我还需要提供适当的JAR文件来进行流处理以及HIVE。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接