有比pandas fillna()更快的方法吗?

5

Pandasfillna() 方法在处理缺失数据较多的数据框时速度很慢。

有没有比这更快的方法呢?

(我知道如果简单地删除包含缺失值的行和/或列会有所帮助。)


@jezrael,针对数据框中的所有缺失数据(即所有行和列)。 - Outcast
@jezrael,所有列都是分类的(有序而不是独热编码)。行数为60k,列数为20。缺失值的百分比很高(30%)。 - Outcast
1
@jezrael,是的 ;) 而且缺失值是 None - Outcast
@jezrael,你的意思是你测试了另外一个东西,但它的性能与填充(fillna)差不多吗?(抱歉,我没有完全理解你在上一条信息中的意思) - Outcast
@jezrael,好的,我明白了。知道这点很好,谢谢你! ;) - Outcast
显示剩余9条评论
1个回答

7

我尝试进行测试:

np.random.seed(123)
N = 60000
df = pd.DataFrame(np.random.choice(['a', None], size=(N, 20), p=(.7, .3)))

In [333]: %timeit df.fillna('b')
93.5 ms ± 1.28 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

In [337]: %timeit df[df.isna()] = 'b'
122 ms ± 2.75 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

一种稍微修改过的解决方案(但我觉得有点繁琐):
#pandas below
In [335]: %timeit df.values[df.isna()] = 'b'
56.7 ms ± 799 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

#pandas 0.24+
In [339]: %timeit df.to_numpy()[df.isna()] = 'b'
56.5 ms ± 951 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

关于 df.fillna('b')df[df.isna()] = 'b',那么前者更快吗?我以为你是在说相反的情况。无论如何,这对我来说都没问题;我只是想要澄清一下。 - Outcast
@Poete Maudit 如果检查使用 df[df.isna()] = 'b' 的答案,它会比 fillna 慢,如果分配给 numpy 数组 df.values[df.isna()] = 'b' 更快。 - jezrael

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接