在我们的使用Pandas的代码中,有一些Python函数
我意识到这种使用模式规避了numpy / Pandas栈的大部分性能优势。
1.使这种使用模式尽可能高效的最佳方法是什么? 2.是否可能在不重写大部分代码的情况下实现?
另一个问题是:是否所有这样的函数都可以转换为numpy有效的表示形式?我还有很多关于numpy / scipy / Pandas堆栈的知识需要学习,但似乎对于真正的任意逻辑,有时您可能需要像上面那样使用一个慢速的纯Python架构。是这种情况吗?
process(row)
。该函数在DataFrame.iterrows()
上使用,对每个row
进行一些处理并返回一个值,最终我们将这些值收集到一个新的Series
中。我意识到这种使用模式规避了numpy / Pandas栈的大部分性能优势。
1.使这种使用模式尽可能高效的最佳方法是什么? 2.是否可能在不重写大部分代码的情况下实现?
另一个问题是:是否所有这样的函数都可以转换为numpy有效的表示形式?我还有很多关于numpy / scipy / Pandas堆栈的知识需要学习,但似乎对于真正的任意逻辑,有时您可能需要像上面那样使用一个慢速的纯Python架构。是这种情况吗?