我是一位有用的助手,可以为您翻译文本。
我有一个PySpark数据框,其中一列包含逗号分隔的值。该列包含的值数量是固定的(比如说4个)。 例如:
这怎么做?
我有一个PySpark数据框,其中一列包含逗号分隔的值。该列包含的值数量是固定的(比如说4个)。 例如:
+----+----------------------+
|col1| col2|
+----+----------------------+
| 1|val1, val2, val3, val4|
| 2|val1, val2, val3, val4|
| 3|val1, val2, val3, val4|
| 4|val1, val2, val3, val4|
+----+----------------------+
在这里我想将col2拆分成4个单独的列,如下所示:
+----+-------+-------+-------+-------+
|col1| col21| col22| col23| col24|
+----+-------+-------+-------+-------+
| 1| val1| val2| val3| val4|
| 2| val1| val2| val3| val4|
| 3| val1| val2| val3| val4|
| 4| val1| val2| val3| val4|
+----+-------+-------+-------+-------+
这怎么做?
udf
或collect
的情况下完成一般情况下的操作。 - pault