有比pandas fillna()更快的方法吗？

Question

有比pandas fillna()更快的方法吗？

pythonpandasmissing-data

5

Pandas 的 fillna() 方法在处理缺失数据较多的数据框时速度很慢。

有没有比这更快的方法呢？

（我知道如果简单地删除包含缺失值的行和/或列会有所帮助。）

- Outcast

@jezrael，针对数据框中的所有缺失数据（即所有行和列）。 - Outcast

@jezrael，所有列都是分类的（有序而不是独热编码）。行数为60k，列数为20。缺失值的百分比很高（30%）。 - Outcast

1

@jezrael，是的 ;) 而且缺失值是 None。 - Outcast

@jezrael，你的意思是你测试了另外一个东西，但它的性能与填充（fillna）差不多吗？（抱歉，我没有完全理解你在上一条信息中的意思） - Outcast

@jezrael，好的，我明白了。知道这点很好，谢谢你！ ;) - Outcast

显示剩余9条评论

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- jezrael · Accepted Answer

我尝试进行测试:

np.random.seed(123)
N = 60000
df = pd.DataFrame(np.random.choice(['a', None], size=(N, 20), p=(.7, .3)))

In [333]: %timeit df.fillna('b')
93.5 ms ± 1.28 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

In [337]: %timeit df[df.isna()] = 'b'
122 ms ± 2.75 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

一种稍微修改过的解决方案（但我觉得有点繁琐）：

#pandas below
In [335]: %timeit df.values[df.isna()] = 'b'
56.7 ms ± 799 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

#pandas 0.24+
In [339]: %timeit df.to_numpy()[df.isna()] = 'b'
56.5 ms ± 951 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)