我使用以下工具进行了写作测试:
df.write.partitionBy("id", "name")
.mode(SaveMode.Append)
.parquet(filePath)
然而,如果我省略分区:
df.write
.mode(SaveMode.Append)
.parquet(filePath)
它执行速度比之前快了100倍(!)。
当进行分区时,写入相同数量的数据需要花费100倍的时间,这正常吗?
这个DataFrame
有10个额外的整数列,其中包含10个唯一的id
和3000个唯一的name
列值。