我正在使用 Spark 1.3.1 (PySpark),并使用 SQL 查询生成了一张表。现在我有一个对象是
DataFrame
,我想将这个DataFrame
对象(我称之为“table”)导出到 csv 文件,以便我可以操作它并绘制列。如何将DataFrame
“table”导出到 csv 文件呢?谢谢!
df.write.csv('/tmp/lookatme/')
将一组 CSV 文件存储在/tmp/lookatme
目录中。与在 Pandas 中序列化相比,使用 Spark 处理数据速度显著更快。唯一的缺点是最终会得到一组 CSV 文件而不是单个文件,如果目标工具不知道如何将它们连接起来,则需要自己操作。 - Txangelto_csv
函数可以直接使用,而不需要导入Pandas库。.toPandas
函数似乎是Spark的一部分,可能会隐式地导入它。 - cardamomdf.coalesce(1).write.csv('mycsv.csv')
。 - MichaelChiricodf.write.csv('mycsv.csv')
命令可以将 CSV 文件导出到 HDFS 环境中。如何将其获取到本地环境? - Tracy