我是新手使用Apache Spark 1.3.1。如何将JSON文件转换为Parquet?
我是新手使用Apache Spark 1.3.1。如何将JSON文件转换为Parquet?
Spark 1.4及更高版本
您可以使用SparkSQL将JSON文件读入DataFrame,然后将DataFrame写入parquet文件。
val df = sqlContext.read.json("path/to/json/file")
df.write.parquet("path/to/parquet/file")
或者df.save("path/to/parquet/file", "parquet")
Spark 1.3.1
val df = sqlContext.jsonFile("path/to/json/file")
df.saveAsParquetFile("path/to/parquet/file")
与Windows和Spark 1.3.1相关的问题
在Windows上将DataFrame保存为parquet文件时,会抛出java.lang.NullPointerException
错误,如此处所述。
在这种情况下,请考虑升级到更新的Spark版本。
/test5/
AS (SELECT * FROM dfs.gen./2016/10/*/*.json
e);”,如果你感兴趣 => https://drill.apache.org/docs/parquet-format/. - Thomas Decaux