我有一个架构如下的 df
:
root
|-- col1: string (nullable = true)
|-- col2: array (nullable = true)
| |-- element: string (containsNull = true)
其中一列col2
是一个数组[1#b, 2#b, 3#c]
,我想将其转换为字符串格式1#b,2#b,3#c
。
我目前通过以下代码片段实现:
df2 = (df1.select("*", explode(col2)).drop('col2'))
df2.groupBy("col1").agg(concat_ws(",", collect_list('col')).alias("col2"))
虽然这种方法可以完成工作,但它需要时间,而且似乎效率不高。
有更好的替代方案吗?