如何在Pandas数据框中求和所有值的最佳方法？

Question

如何在Pandas数据框中求和所有值的最佳方法？

59

我想出了这两种方法。有更好的方法吗？

>>> import pandas as pd
>>> df = pd.DataFrame({'A': [5, 6, 7], 'B': [7, 8, 9]})
>>> print df.sum().sum()
42
>>> print df.values.sum()
42

只是想确保我没有漏掉什么更明显的东西。

- Bill

3

请注意，如果存在 nan 值，则 df.sum().sum() 会忽略 nan 并返回一个 float，而 df.values.sum() 则返回 nan。因此这两种方法并不等价。 - Ramon Crehuet

2个回答

6

为了支持这个观点，我们来加入一些数字：

import numpy as np, pandas as pd
import timeit
df = pd.DataFrame(np.arange(int(1e6)).reshape(500000, 2), columns=list("ab"))

def pandas_test():
    return df['a'].sum()

def numpy_test():
    return df['a'].to_numpy().sum()

timeit.timeit(numpy_test, number=1000)  # 0.5032469799989485
timeit.timeit(pandas_test, number=1000)  # 0.6035906639990571

因此，在我的机器上，仅对Series求和操作的性能提高了20％！

- Raven

但是 df['a'].sum() 和 df['a'].to_numpy().sum() 是一样的吗？我认为 df['a'].sum() 只会对列求和，不是吗？ - Bill

是的，这只是单个系列求和的比较，我没有对整个数据框进行求和。 - Raven

1

哦，我明白了。但是这个问题是关于对整个数据框进行求和，而不是一个系列。 - Bill

你能报告一下你的pandas和numpy版本吗？我在使用Pandas 0.24.2和Numpy 1.16.2进行测试时得到了更大的速度差异。 - Bill

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- piRSquared · Accepted Answer

74

适用于Pandas 0.24+版本更新

df.to_numpy().sum()

在 Pandas 0.24+ 版本之前

df.values

底层的numpy数组是什么？

df.values.sum()

numpy的sum方法更快

- piRSquared

谢谢。这正是我所想的！ - Bill

2

它之所以更快，纯粹是因为一个函数调用了另一个函数，还是有一些更根本的区别？ - kuanb

3

@kuanb 有两个原因。第一，df.values.sum()是一个numpy操作，通常情况下，numpy更有效率。第二，numpy会对数组中的所有元素进行求和，无论其维度如何。而pandas需要分别对每个维度进行两次调用来实现求和。 - piRSquared