我在Spark shell中直接读取ORC文件时遇到了问题。注:运行Hadoop 1.2和Spark 1.2,使用pyspark shell,可以使用spark-shell(运行scala)。
from pyspark.sql import HiveContext
hiveCtx = HiveContext(sc)
inputRead = sc.hadoopFile("hdfs://user@server:/file_path",
classOf[inputFormat:org.apache.hadoop.hive.ql.io.orc.OrcInputFormat],
classOf[outputFormat:org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat])
我通常会收到语法错误的提示。有一次,代码似乎可以工作,我只使用了传递给hadoopFile的三个参数中的第一个参数,但是当我尝试使用其他参数时出现了问题。
inputRead.first()
输出结果是RDD[nothing, nothing]。我不知道这是因为inputRead变量没有作为RDD被创建,还是压根没有被创建。
非常感谢任何帮助!