使用Pandas计算每行中非空值的数量

29

我有一个数据框

    site1   time1   site2   time2   site3   time3   site4   time4   site5   time5   ... time6   site7   time7   site8   time8   site9   time9   site10  time10  target
 session_id                                                                                 

21669   56  2013-01-12 08:05:57 55.0    2013-01-12 08:05:57 NaN NaT NaN NaT NaN NaT ... NaT NaN NaT NaN NaT NaN NaT NaN NaT 0
54843   56  2013-01-12 08:37:23 55.0    2013-01-12 08:37:23 56.0    2013-01-12 09:07:07 55.0    2013-01-12 09:07:09 NaN NaT ... NaT NaN NaT NaN NaT NaN NaT NaN NaT 0
77292   946 2013-01-12 08:50:13 946.0   2013-01-12 08:50:14 951.0   2013-01-12 08:50:15 946.0   2013-01-12 08:50:15 946.0   2013-01-12 08:50:16 ... 2013-01-12 08:50:16 948.0   2013-01-12 08:50:16 784.0   2013-01-12 08:50:16 949.0   2013-01-12 08:50:17 946.0   2013-01-12 08:50:17 0
114021  945 2013-01-12 08:50:17 948.0   2013-01-12 08:50:17 949.0   2013-01-12 08:50:18 948.0   2013-01-12 08:50:18 945.0   2013-01-12 08:50:18 ... 2013-01-12 08:50:18 947.0   2013-01-12 08:50:19 945.0   2013-01-12 08:50:19 946.0   2013-01-12 08:50:19 946.0   2013-01-12 08:50:20 0

我需要计算列数N,其中site列不为NaN。我尝试使用

df[['site%s' % i for i in range(1, 11)]].count(axis=1)

但它针对每个id返回给我10

此外,我已经尝试过

train_df[sites].notnull().count(axis=1)

而且这也没有帮助。

期望输出

21669    2
54843    4
77292    10
114021   10

1
train_df[sites].notnull().sum(axis=1)? You only want to sum the True elements in your columns. Alternatively, use train_df[sites].count(axis=1) - cs95
3个回答

45

我只需要使用count就可以达到目的:

train_df[sites].count(axis=1)

count 用于计算非空值数量。你当前的实现存在问题,因为 notnull 会产生布尔值,而 bool 值肯定不是 null,这意味着它们总是被计入。


df

        one       two     three four   five
a -0.166778  0.501113 -0.355322  bar  False
b       NaN       NaN       NaN  NaN    NaN
c -0.337890  0.580967  0.983801  bar  False
d       NaN       NaN       NaN  NaN    NaN
e  0.057802  0.761948 -0.712964  bar   True
f -0.443160 -0.974602  1.047704  bar  False
g       NaN       NaN       NaN  NaN    NaN
h -0.717852 -1.053898 -0.019369  bar  False

df.count(axis=1)

a    5
b    0
c    5
d    0
e    5
f    5
g    0
h    5
dtype: int64

并且...

df.notnull().count(axis=1)


a    5
b    5
c    5
d    5
e    5
f    5
g    5
h    5
dtype: int64

它会返回每个ID的10。 - Petr Petrov
@PetrPetrov 试着保存你的文件...看看我的修改,它可以正常工作。 - cs95

10

同时使用count(axis=1)sum()交易应该可以解决问题。

train_df[sites].notnull().sum()

train_df[sites].isnull().sum()train_df[sites].isnull().any() 是另外两个有用的习惯用语(第一个计算空值数量,第二个显示是否存在任何空值)。 - jsmart

4

一种简单的按行查找缺失值数量的方法是:

df.isnull().sum(axis=1)

为了查找行中有超过3个空值的数量:
df[df.isnull().sum(axis=1) >=3]

如果需要删除含有3个或更多空值的行,则可以使用以下代码:
df = df[df.isnull().sum(axis=1) < 3]

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接