Pandas：将Lambda应用于多个数据框

Question

Pandas：将Lambda应用于多个数据框

pythonmemorypandaslambdadataframe

7

我正在尝试找出如何同时将lambda函数应用于多个数据框，而无需先将它们合并。我正在处理大型数据集（> 60MM记录），因此需要特别注意内存管理。

我的希望是，有一种方法可以将lambda应用于基础数据框架，以便我可以避免首先将它们拼接在一起的成本，然后在进行下一步处理之前从内存中删除该中间数据框。

我通过使用基于HDF5的数据框架来规避内存问题，但我更愿意首先尝试探索不同的解决方案。

我提供了一个玩具问题来帮助说明我的意思。

import numpy as np
import pandas as pd

# Here's an arbitrary function to use with lambda
def someFunction(input1, input2, input3, input4):
    theSum = input1 + input2
    theAverage = (input1 + input2 + input3 + input4) / 4
    theProduct = input2 * input3 * input4
    return pd.Series({'Sum' : theSum, 'Average' : theAverage, 'Product' : theProduct})

# Cook up some dummy dataframes
df1 = pd.DataFrame(np.random.randn(6,2),columns=list('AB'))
df2 = pd.DataFrame(np.random.randn(6,1),columns=list('C'))
df3 = pd.DataFrame(np.random.randn(6,1),columns=list('D'))

# Currently, I merge the dataframes together and then apply the lambda function
dfConsolodated = pd.concat([df1, df2, df3], axis=1)

# This works just fine, but merging the dataframes seems like an extra step
dfResults = dfConsolodated.apply(lambda x: someFunction(x['A'], x['B'], x['C'], x['D']), axis = 1)

# I want to avoid the concat completely in order to be more efficient with memory. I am hoping for something like this:
# I am COMPLETELY making this syntax up for conceptual purposes, my apologies.
dfResultsWithoutConcat = [df1, df2, df3].apply(lambda x: someFunction(df1['A'], df1['B'], df2['C'], df3['D']), axis = 1)

- jtrowbridge

1

如果您的当前问题可以在不应用lambda和连接的情况下解决，那么回答这个问题是否值得回答就很难理解了。您能否解释一下您真正想要实现什么？ - EdChum

所有的数据框形状都相同吗？ - Alexander

基本上，它们具有相同的索引。它们在垂直方向上具有相同的高度，但可能具有不同的宽度。 - jtrowbridge

如果内存是您的限制条件，您可以通过连接数据帧来坚持使用原始工作流程。然而，尝试按批次处理它们（例如每次处理1百万行），然后再连接结果。 - Alexander

非常好的建议。我之前并没有意识到panda df和numpy数组之间的区别。我的表格中有一些字符串数据，我将把这些字符串转换为唯一的整数哈希值，并作为np.array运行。我会尝试并向这个线程报告我的发现。 - jtrowbridge

显示剩余3条评论

2个回答

1

有一个选择是明确地创建所需的聚合：

theSum = df1.A + df1.B
theAverage = (df1.A + df1.B + df2.C + df3.D) / 4.
theProduct = df1.B * df2.C * df3.D
theResult = pd.concat([theSum, theAverage, theProduct])
theResult.columns = ['Sum', 'Average', 'Product']

另一种可能性是使用query，但这取决于您的用例和如何聚合数据。以下是文档中的示例，可能适用于您。

map(lambda frame: frame.query(expr), [df, df2])

- Alexander

这个例子中可以运行是因为我的示例中的数学很简单。实际上，我使用了一个更复杂的统计模型，其中使用了一些数值积分。我认为我不能通过显式创建聚合来摆脱它们。由于模型的复杂性，我认为我只能通过将数据传递到函数参数中来解决问题。 - jtrowbridge

我应该提到查询的想法值得一试，谢谢这个想法，我会尝试一下。回到我的原始问题，是否可能在多个单独的数据框之间使用lambda？ - jtrowbridge

我注意到你是一个金融专业人士。实际上，我正在创建一个大型数据框，其中包含每日期权头寸的时间序列，并通过欧式Black-Scholes模型对它们进行定价，以获取价格和所有典型的希腊字母值。然后，我通过计算各个希腊字母值的每日P＆L归因来获得与所有相关敏感性有关的每日P＆L时间序列。我无法像你之前提到的那样通过显式创建聚合来运行BS。 - jtrowbridge

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- arthaigo · Accepted Answer

我知道这个问题有点老，但这是我想出来的一种方法。虽然不太好看，但它确实有效。

基本思路是在应用函数中查询第二个数据框。通过使用传递的系列名称，您可以识别列/索引并使用它从其他数据框中检索所需的值。

def func(x, other):
    other_value = other.loc[x.name]
    return your_actual_method(x, other_value)

result = df1.apply(lambda x: func(x, df2))