为什么 pandas.dataframe.groupby 在先赋值给变量后速度更快？

Question

为什么 pandas.dataframe.groupby 在先赋值给变量后速度更快？

pythonarraysperformancepandasoptimization

3

请问有人能帮助我理解为什么使用 pandas.dataframe groupby 方法 进行以下两种操作，看起来本应该是相同的，但根据 iPython 的 Magic %timeit，会导致如此不同的时间？

%timeit somedf.groupby('someBoolColumn')['someBoolColumn'].count()
484 µs ± 9.52 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

%%timeit grp = somedf.groupby('someBoolColumn')
grp['someBoolColumn'].count()
146 µs ± 1.47 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

somedf有7200行24列。

我找不到：

为什么将对象分配给变量grp的两行代码要比其他方式快3倍以上，
这是仅限于groupby方法还是与pandas甚至Python更普遍的变量分配相关，例如。

非常感谢您提供任何启示，因为这将真正有助于处理许多更大的数据框，我需要进行多种不同参数的重复处理。

- JonB451

嘿Jon，你已经进行了这个编辑，你问了一下除了编辑答案之外还能做什么：不能评论的限制是有原因的，在这里你可以阅读为什么存在这些限制以及你可以做些什么替代方案。祝你有美好的一天！ - jmattheis

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- unutbu · Accepted Answer

Ipython的%timeit文档说明：

在单元格模式下，第一行语句用作设置代码（执行但不计时），单元格的主体计时。单元格主体可以访问在设置代码中创建的任何变量。

(我强调了这点)。使用%%timeit的双百分号形式会触发cell mode。当您在IPython提示符下键入%magic时，IPython还会打印一段文本:

%%timeit x = numpy.random.randn((100, 100))
numpy.linalg.svd(x)
will time the execution of the numpy svd routine, running the assignment of x as part of the setup phase, which is not timed.

因此，

%%timeit grp = somedf.groupby('someBoolColumn')
grp['someBoolColumn'].count()

在计时时，只有 grp['someBoolColumn'].count() 被计时，而不是赋值语句 grp = somedf.groupby('someBoolColumn')。

如何在没有设置行的情况下使用%%timeit:

要使用%%timeit计时两个语句，只需在%%timeit之后留空第一行即可:

%%timeit 
grp = somedf.groupby('someBoolColumn')
grp['someBoolColumn'].count()

通过输入 Enter 两次来完成单元格。