我有一个pandas DataFrame,其中包含
以下是我的操作:
idx
、grp
、X
和Y
列。我想通过对X
作为自变量的Y
函数的累积积分来获得一个新列。然而,我想将这个累积积分应用到DataFrame中由grp
列定义的每个子组上。以下是我的操作:
import numpy as np
import pandas as pd
from scipy import integrate
def myIntegral(DF, n):
A0 = 200
return integrate.cumtrapz((A0/DF.Y)**n, DF.X, initial=0)
data = pd.DataFrame({'idx' : [1,2,3,4,5,6],
'grp' : [2,2,2,2,3,3],
'X' : [.1,.2,.3,.4,.2,.3],
'Y' : [3,4,4,3,2,3]}
)
data.sort_values(by=['grp', 'X'], inplace=True)
out = data.groupby('grp').apply(myIntegral, n=0.5)
out
是每个 grp
值的 ndarrays 序列,我需要将它们映射回 DataFrame:
data_grouped = data.groupby('grp')
out2 = []
for grp, DF in data_grouped:
DF['Z'] = out.loc[grp]
out2.append(DF)
data = pd.concat(out2)
它可以工作,但通过一系列的ndarrays来执行步骤似乎非常丑陋并容易出错。有没有建议如何改进呢?此外,我将使用的数据集相当大,因此我正在尝试找到一种高效的解决方案。
谢谢!