我可以帮您翻译以下内容,这是有关IT技术的。您需要一个结构如下的数据框:
A: Array[String] | B: Array[String] | [ ... multiple other columns ...]
=========================================================================
[A, B, C, D] | [1, 2, 3, 4] | [ ... array with 4 elements ... ]
[E, F, G, H, I] | [5, 6, 7, 8, 9] | [ ... array with 5 elements ... ]
[J] | [10] | [ ... array with 1 element ... ]
我想编写一个UDF,它可以:
- 压缩DF中每列在第i个位置上的元素
- 将DF展开为这些压缩元组的每个部分
生成的列应该如下所示:
ZippedAndExploded: Array[String]
=================================
[A, 1, ...]
[B, 2, ...]
[C, 3, ...]
[D, 4, ...]
[E, 5, ...]
[F, 6, ...]
[G, 7, ...]
[H, 8, ...]
[I, 9, ...]
[J, 10, ...]
目前我正在使用一个多调用(每个列名一个调用,列名列表在运行时之前收集)到类似这样的UDF:
val myudf6 = udf((xa:Seq[Seq[String]],xb:Seq[String]) => {
xa.indices.map(i => {
xa(i) :+ xb(i) // Add one element to the zip column
})
})
val allColumnNames = df.columns.filter(...)
for (columnName <- allColumnNames) {
df = df.withColumn("zipped", myudf8(df("zipped"), df(columnName))
}
df = df.explode("zipped")
由于数据框可能有数百列,这个迭代调用 withColumn
似乎需要很长时间。
问题:是否可以使用一个UDF和单个 DF.withColumn(...)
调用完成此操作?
重要提示:UDF应该压缩动态数量的列(在运行时读取)。