这是针对使用Spark 2.3.2的Python/PySpark的技术问题。我正在寻找最佳实践方法,将一个数据帧的列复制到另一个数据帧中,对于一个非常大的数据集(按年/月/日分区,均匀地分配),此数据集包含10亿多行数据。每个数据行有120个需要转换或复制的列。输出数据框将被写入,日期分区,到另一个Parquet文件集中。
示例架构如下: 输入DFInput(colA,colB,colC)和 输出DFoutput(X,Y,Z) 我的目标是将DFinput复制到DFoutput,如下所示: (colA => Z,colB => X,colC => Y)。 在Python Spark 2.3+中,最佳实践是什么? 我应该为每个源列使用DF.withColumn()方法来复制到目标列吗? 考虑到每个拥有超过110列要复制的十亿行,这样做会表现良好吗?
谢谢。
示例架构如下: 输入DFInput(colA,colB,colC)和 输出DFoutput(X,Y,Z) 我的目标是将DFinput复制到DFoutput,如下所示: (colA => Z,colB => X,colC => Y)。 在Python Spark 2.3+中,最佳实践是什么? 我应该为每个源列使用DF.withColumn()方法来复制到目标列吗? 考虑到每个拥有超过110列要复制的十亿行,这样做会表现良好吗?
谢谢。