Python / Pyspark - 统计NULL、空值和NaN的数量

13

我想要统计一列中的NULL、空值和NaN值。我尝试了以下方法:

df.filter( (df["ID"] == "") | (df["ID"].isNull()) | ( df["ID"].isnan()) ).count()

但我总是收到这个错误消息:

TypeError: 'Column' object is not callable

有人知道问题可能是什么吗?

非常感谢提前!

1个回答

32

isnan不是Column类的方法,您需要导入它:

from pyspark.sql.functions import isnan

并像这样使用:

df.filter((df["ID"] == "") | df["ID"].isNull() | isnan(df["ID"])).count()

3
你知道如何在这个查询中检查多个列吗? df ["Col1,Col2,Col3"] == "" - qwertz
1
一种可能性是使用functools.reduce,请参见我在这里的回答。 - Psidom

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接