我正在使用
我有一个像这样的数据框
pyspark
,尝试在使用collect_list
时包含空值,但collect_list
操作会排除nulls
。我查看了以下帖子Pypsark - Retain null values when using collect_list,但是给出的答案不符合我的要求。我有一个像这样的数据框
df
。| id | family | date |
----------------------------
| 1 | Prod | null |
| 2 | Dev | 2019-02-02 |
| 3 | Prod | 2017-03-08 |
以下是我的代码:
df.groupby("family").agg(f.collect_list("date").alias("entry_date"))
这会给我一个像这样的输出:
| family | date |
-----------------------
| Prod |[2017-03-08]|
| Dev |[2019-02-02]|
我真正想要的是:
| family | date |
-----------------------------
| Prod |[null, 2017-03-08]|
| Dev |[2019-02-02] |
有人能帮我解决这个问题吗?谢谢!