有没有办法向现有的parquet文件中追加新列?
我目前正在参加kaggle比赛,将所有数据转换为parquet文件。
这是情况,我将parquet文件读入pyspark DataFrame,并进行了一些特征提取,并使用pysaprk.DataFrame.withColumn()向DataFrame添加了新列。
之后,我想将新列保存到源parquet文件中。
我知道Spark SQL附带Parquet schema evolution,但示例只显示了一个键值的情况。 parquet“append”模式也行不通。它只会将新行附加到parquet文件中。 是否有任何方法可以将新列追加到现有的parquet文件中,而不是再次生成整个表格? 或者我必须生成一个单独的新parquet文件,并在运行时将它们连接起来。
我目前正在参加kaggle比赛,将所有数据转换为parquet文件。
这是情况,我将parquet文件读入pyspark DataFrame,并进行了一些特征提取,并使用pysaprk.DataFrame.withColumn()向DataFrame添加了新列。
之后,我想将新列保存到源parquet文件中。
我知道Spark SQL附带Parquet schema evolution,但示例只显示了一个键值的情况。 parquet“append”模式也行不通。它只会将新行附加到parquet文件中。 是否有任何方法可以将新列追加到现有的parquet文件中,而不是再次生成整个表格? 或者我必须生成一个单独的新parquet文件,并在运行时将它们连接起来。