我有一个数据框(具有更多的行和列),如下所示。
样本DF:
我想要的是:
我尝试复制此处提供的
然而,它没有给出所需的结果。
编辑:由于当前存储为字符串,因此“explode”选项无法工作,而“explode”函数需要一个数组。
样本DF:
from pyspark import Row
from pyspark.sql import SQLContext
from pyspark.sql.functions import explode
sqlc = SQLContext(sc)
df = sqlc.createDataFrame([Row(col1 = 'z1', col2 = '[a1, b2, c3]', col3 = 'foo')])
# +------+-------------+------+
# | col1| col2| col3|
# +------+-------------+------+
# | z1| [a1, b2, c3]| foo|
# +------+-------------+------+
df
# DataFrame[col1: string, col2: string, col3: string]
我想要的是:
+-----+-----+-----+
| col1| col2| col3|
+-----+-----+-----+
| z1| a1| foo|
| z1| b2| foo|
| z1| c3| foo|
+-----+-----+-----+
我尝试复制此处提供的
RDD
解决方案:Pyspark: Split multiple array columns into rows
(df
.rdd
.flatMap(lambda row: [(row.col1, col2, row.col3) for col2 in row.col2)])
.toDF(["col1", "col2", "col3"]))
然而,它没有给出所需的结果。
编辑:由于当前存储为字符串,因此“explode”选项无法工作,而“explode”函数需要一个数组。
split
和regexp_replace
来查找explode
。 - paultexplode
无法使用。 - SmitM