在下面的数据框中:
您可以运行此命令以获取不同值的列表:
如何从上述 collect_set 中删除一项?例如如何删除
from pyspark.sql import functions as F
df = sqlContext.createDataFrame([
("a", "code1", "name"),
("a", "code1", "name2"),
("a", "code2", "name2"),
], ["id", "code", "name"])
df.show()
您可以运行此命令以获取不同值的列表:
df.groupby("id").agg(F.collect_set("code")).show()
+---+-----------------+
| id|collect_set(code)|
+---+-----------------+
| a| [code2, code1]|
+---+-----------------+
如何从上述 collect_set 中删除一项?例如如何删除
'code2'
。