我有一个带封装列的pyspark原始数据框。我需要循环遍历所有列以取消封装。我不知道列名,它们可能会改变。因此,我需要通用算法。问题在于我不能使用传统的循环(for),因为我需要并行代码。
数据示例:
Timestamp | Layers
1456982 | [[1, 2],[3,4]]
1486542 | [[3,5], [5,5]]
在层级结构中,它是一个包含其他列(具有自己的列名)的列。我的目标是获得类似下面这样的东西:
Timestamp | label | number1 | text | value
1456982 | 1 | 2 |3 |4
1486542 | 3 | 5 |5 |5
如何使用pyspark函数在列上创建循环?
谢谢建议。