如何使用Python函数高效地处理DataFrame行？

Question

如何使用Python函数高效地处理DataFrame行？

12

在我们的使用Pandas的代码中，有一些Python函数process(row)。该函数在DataFrame.iterrows()上使用，对每个row进行一些处理并返回一个值，最终我们将这些值收集到一个新的Series中。

我意识到这种使用模式规避了numpy / Pandas栈的大部分性能优势。

1.使这种使用模式尽可能高效的最佳方法是什么？ 2.是否可能在不重写大部分代码的情况下实现？

另一个问题是：是否所有这样的函数都可以转换为numpy有效的表示形式？我还有很多关于numpy / scipy / Pandas堆栈的知识需要学习，但似乎对于真正的任意逻辑，有时您可能需要像上面那样使用一个慢速的纯Python架构。是这种情况吗？

- Dun Peal

如果你在进行数学计算，你应该能够进行向量化操作。如果你使用字符串或其他非固定大小的数据类型，你可以以向量化的方式对数字进行数学运算，然后对其余部分进行基于行的操作... 你能提供一些关于你正在做什么的详细信息吗？ - Dav Clark

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Viktor Kerkez · Accepted Answer

你应该沿着axis=1的方向应用你的函数。函数将会接收一行作为参数，返回的任何内容都将被收集到一个新的系列对象中。

df.apply(you_function, axis=1)

例子：

>>> df = pd.DataFrame({'a': np.arange(3),
                       'b': np.random.rand(3)})
>>> df
   a         b
0  0  0.880075
1  1  0.143038
2  2  0.795188
>>> def func(row):
        return row['a'] + row['b']
>>> df.apply(func, axis=1)
0    0.880075
1    1.143038
2    2.795188
dtype: float64

关于问题的第二部分：使用pandas的apply进行逐行操作，即使是优化过的操作也不是最快的解决方案。它们肯定比Python的for循环要快得多，但不是最快的。您可以通过计时操作来测试，并且会看到差异。

某些操作可以转换为列导向操作（例如，上例中的操作可以轻松转换为df['a'] + df['b']），但其他操作不行。特别是如果您有许多分支，特殊情况或其他应在行上执行的逻辑。在这种情况下，如果apply对您来说太慢了，我建议您尝试将代码“Cython-化”。 Cython与NumPy C API非常兼容，并且将为您提供最大的速度。

或者，您可以尝试使用numba。 :)