我正在使用PySpark进行经典ETL作业(加载数据集,处理它,保存它),并希望将我的DataFrame保存为按“虚拟”列分区的文件/目录;我所说的“虚拟”是指我有一个名为Timestamp的列,其中包含ISO 8601编码的日期字符串,并且我想要按年/月/日进行分区;但是,实际上我在DataFrame中没有年、月或日列;尽管我可以从这个Timestamp中推导出这些列,但我不希望我的结果项序列化其中一个这些列。
保存DataFrame到磁盘后的文件结构应如下:
保存DataFrame到磁盘后的文件结构应如下:
/
year=2016/
month=01/
day=01/
part-****.gz
是否有一种使用Spark / Pyspark实现我想要的方法?