我在Spark中还比较新,一直在尝试将Dataframe转换为Parquet文件,但尚未成功。 文档 中指出可以使用write.parquet函数创建文件。但是,当我运行脚本时显示:AttributeError: 'RDD' object has no attribute 'write'
from pyspark import SparkContext
sc = SparkContext("local", "Protob Conversion to Parquet ")
# spark is an existing SparkSession
df = sc.textFile("/temp/proto_temp.csv")
# Displays the content of the DataFrame to stdout
df.write.parquet("/output/proto.parquet")
你知道如何使这个工作吗?
我使用的Spark版本是为Hadoop 2.7.3构建的Spark 2.0.1。
sc.textFile()
返回RDD
。 - mrsrinivas