我有一个DataFrame,其中一列是多级索引。我想按第二级进行分组,并应用生成新列的函数。我希望这个计算出的列被添加到每个组中,因此我的数据框将为每个组添加新列。
我创建了一个小的虚拟脚本和函数来复制我想要做的事情。
import pandas as pd
import numpy as np
columns = [('A','julian'),('A','geoffrey'),
('B','julian'),('B','geoffrey'),
('C','julian'),('C','geoffrey')]
columns = pd.MultiIndex.from_tuples(columns)
dataframe = pd.DataFrame(data=np.random.rand(10,6),columns=columns)
def addColumn(inputDF):
group = inputDF.columns[0][1]
inputDF['sum', group] = inputDF.sum(axis=1)
return inputDF
newColumnsDataframe = dataframe.groupby(level=1, axis=1).apply(addColumn)
原始数据框如下所示:
A B C
julian geoffrey julian geoffrey julian geoffrey
0 0.204082 0.073676 0.795725 0.279702 0.258185 0.258112
1 0.263235 0.096733 0.507324 0.541198 0.525919 0.757652
2 0.196243 0.028613 0.653408 0.364365 0.174911 0.924733
3 0.528785 0.831569 0.654160 0.738029 0.940831 0.294473
4 0.853517 0.263250 0.803087 0.855270 0.701937 0.264698
5 0.239797 0.069519 0.943544 0.374411 0.189361 0.846647
6 0.980734 0.290414 0.850097 0.873785 0.903645 0.118713
7 0.591942 0.088387 0.566298 0.062140 0.568482 0.872064
8 0.818167 0.061483 0.282050 0.008404 0.449198 0.658370
9 0.217424 0.427602 0.471933 0.171458 0.390549 0.234426
生成的数据框应如下所示(我单独构建了总和数据框并将两个数据框串联以达到此结果):
A B C sum A B C \
geoffrey geoffrey geoffrey geoffrey julian julian julian
0 0.073676 0.279702 0.258112 0.611491 0.204082 0.795725 0.258185
1 0.096733 0.541198 0.757652 1.395584 0.263235 0.507324 0.525919
2 0.028613 0.364365 0.924733 1.317710 0.196243 0.653408 0.174911
3 0.831569 0.738029 0.294473 1.864071 0.528785 0.654160 0.940831
4 0.263250 0.855270 0.264698 1.383219 0.853517 0.803087 0.701937
5 0.069519 0.374411 0.846647 1.290578 0.239797 0.943544 0.189361
6 0.290414 0.873785 0.118713 1.282912 0.980734 0.850097 0.903645
7 0.088387 0.062140 0.872064 1.022590 0.591942 0.566298 0.568482
8 0.061483 0.008404 0.658370 0.728257 0.818167 0.282050 0.449198
9 0.427602 0.171458 0.234426 0.833486 0.217424 0.471933 0.390549
sum
julian
0 1.257992
1 1.296478
2 1.024561
3 2.123776
4 2.358542
5 1.372703
6 2.734476
7 1.726721
8 1.549415
9 1.079906
上述脚本的方法是基于我个人的理解以及在网上阅读到的关于此类操作的其他人的经验。然而,newColumnsDataframe仍然只有6列,而不是8列(每个名称都新增了一列)。
当我按level=0(即按A、B或C分组)进行分组并使用transform时(但不是在此级别上使用apply时),我注意到newColumnsDataframe确实有9列,每个组都添加了一个sum列。请参见下面的代码:
import pandas as pd
import numpy as np
columns = [('A','julian'),('A','geoffrey'),
('B','julian'),('B','geoffrey'),
('C','julian'),('C','geoffrey')]
columns = pd.MultiIndex.from_tuples(columns)
dataframe = pd.DataFrame(data=np.random.rand(10,6),columns=columns)
def addColumn(inputDF):
group = inputDF.columns[0][1]
inputDF[group, 'sum'] = inputDF.sum(axis=1)
return inputDF
newColumnsDataframe = dataframe.groupby(level=0, axis=1).transform(addColumn)
我一直认为transform作用于组内的每个列,而apply则作用于整个数据框。但这似乎与事实相矛盾。 我还注意到,当我按level=1分组并使用transform而不是apply时,它会抛出以下错误:
ValueError: Length mismatch: Expected axis has 10 elements, new values have 6 elements
我对发生的事情感到非常困惑。有人知道为什么当我在level=0上使用transform和group时,它确实起作用,但是当我做同样的事情,但在level=1上进行分组时出现错误。而且为什么在任一级别上进行分组并应用函数都不会向我的最终数据框添加列?谢谢!(注:这不是我用来添加列的实际数据框或函数,只是一个更简单的说明)