我有一个形式如下的Spark Dataframe:
我想把所有的值按“年份”分组,并计算每一列每年缺失值的数量。
我找到了下面的代码片段(忘记从哪里找到的):
这在计算每列缺失值的数量时完美运作。但是,我不确定如何修改它以计算每年的缺失值数量。
非常感谢任何指向正确方向的提示。
+------+-------+-----+--------+
| Year | Month | Day | Ticker |
+------+-------+-----+--------+
我想把所有的值按“年份”分组,并计算每一列每年缺失值的数量。
我找到了下面的代码片段(忘记从哪里找到的):
df.select(*(sum(col(c).isNull().cast("int")).alias(c) for c in df.columns)).show()
这在计算每列缺失值的数量时完美运作。但是,我不确定如何修改它以计算每年的缺失值数量。
非常感谢任何指向正确方向的提示。