使用groupby和apply为每个分组添加列

6

我有一个DataFrame,其中一列是多级索引。我想按第二级进行分组,并应用生成新列的函数。我希望这个计算出的列被添加到每个组中,因此我的数据框将为每个组添加新列。

我创建了一个小的虚拟脚本和函数来复制我想要做的事情。

import pandas as pd
import numpy as np

columns = [('A','julian'),('A','geoffrey'),
       ('B','julian'),('B','geoffrey'),
       ('C','julian'),('C','geoffrey')]

columns = pd.MultiIndex.from_tuples(columns)

dataframe = pd.DataFrame(data=np.random.rand(10,6),columns=columns)

def addColumn(inputDF):
   group = inputDF.columns[0][1]
   inputDF['sum', group] = inputDF.sum(axis=1)
   return inputDF

newColumnsDataframe = dataframe.groupby(level=1, axis=1).apply(addColumn) 

原始数据框如下所示:
      A                   B                   C          
    julian  geoffrey    julian  geoffrey    julian  geoffrey
 0  0.204082  0.073676  0.795725  0.279702  0.258185  0.258112
 1  0.263235  0.096733  0.507324  0.541198  0.525919  0.757652
 2  0.196243  0.028613  0.653408  0.364365  0.174911  0.924733
 3  0.528785  0.831569  0.654160  0.738029  0.940831  0.294473
 4  0.853517  0.263250  0.803087  0.855270  0.701937  0.264698
 5  0.239797  0.069519  0.943544  0.374411  0.189361  0.846647
 6  0.980734  0.290414  0.850097  0.873785  0.903645  0.118713
 7  0.591942  0.088387  0.566298  0.062140  0.568482  0.872064
 8  0.818167  0.061483  0.282050  0.008404  0.449198  0.658370
 9  0.217424  0.427602  0.471933  0.171458  0.390549  0.234426

生成的数据框应如下所示(我单独构建了总和数据框并将两个数据框串联以达到此结果):
      A         B         C       sum         A         B         C  \
   geoffrey  geoffrey  geoffrey  geoffrey    julian    julian    julian   
0  0.073676  0.279702  0.258112  0.611491  0.204082  0.795725  0.258185   
1  0.096733  0.541198  0.757652  1.395584  0.263235  0.507324  0.525919   
2  0.028613  0.364365  0.924733  1.317710  0.196243  0.653408  0.174911   
3  0.831569  0.738029  0.294473  1.864071  0.528785  0.654160  0.940831   
4  0.263250  0.855270  0.264698  1.383219  0.853517  0.803087  0.701937   
5  0.069519  0.374411  0.846647  1.290578  0.239797  0.943544  0.189361   
6  0.290414  0.873785  0.118713  1.282912  0.980734  0.850097  0.903645   
7  0.088387  0.062140  0.872064  1.022590  0.591942  0.566298  0.568482   
8  0.061483  0.008404  0.658370  0.728257  0.818167  0.282050  0.449198   
9  0.427602  0.171458  0.234426  0.833486  0.217424  0.471933  0.390549   

    sum  
   julian  
0  1.257992  
1  1.296478  
2  1.024561  
3  2.123776  
4  2.358542  
5  1.372703  
6  2.734476  
7  1.726721  
8  1.549415  
9  1.079906  

上述脚本的方法是基于我个人的理解以及在网上阅读到的关于此类操作的其他人的经验。然而,newColumnsDataframe仍然只有6列,而不是8列(每个名称都新增了一列)。

当我按level=0(即按A、B或C分组)进行分组并使用transform时(但不是在此级别上使用apply时),我注意到newColumnsDataframe确实有9列,每个组都添加了一个sum列。请参见下面的代码:

import pandas as pd
import numpy as np

columns = [('A','julian'),('A','geoffrey'),
       ('B','julian'),('B','geoffrey'),
       ('C','julian'),('C','geoffrey')]

columns = pd.MultiIndex.from_tuples(columns)

dataframe = pd.DataFrame(data=np.random.rand(10,6),columns=columns)

def addColumn(inputDF):
    group = inputDF.columns[0][1]
    inputDF[group, 'sum'] = inputDF.sum(axis=1)
    return inputDF

newColumnsDataframe = dataframe.groupby(level=0, axis=1).transform(addColumn)

我一直认为transform作用于组内的每个列,而apply则作用于整个数据框。但这似乎与事实相矛盾。 我还注意到,当我按level=1分组并使用transform而不是apply时,它会抛出以下错误:

ValueError: Length mismatch: Expected axis has 10 elements, new values have 6 elements

我对发生的事情感到非常困惑。有人知道为什么当我在level=0上使用transform和group时,它确实起作用,但是当我做同样的事情,但在level=1上进行分组时出现错误。而且为什么在任一级别上进行分组并应用函数都不会向我的最终数据框添加列?谢谢!(注:这不是我用来添加列的实际数据框或函数,只是一个更简单的说明)

1
你能添加一个期望的输出吗? - roadrunner66
这值得重申。你的预期最终结果是什么?有趣的问题,好的路线图,但没有目的地。 - Parfait
我刚刚添加了原始数据框和期望的结果。希望这有所帮助! - jjvandermade
1个回答

2

有点混乱,但只需要一行代码:

(df.join(pd.concat({'sum': df.groupby(level=1, axis=1).sum()}, axis=1))
   .sortlevel(level=1, axis=1))

帮我生成这个:

          A         B         C       sum         A         B         C  \
   geoffrey  geoffrey  geoffrey  geoffrey    julian    julian    julian   
0  0.073676  0.279702  0.258112  0.611490  0.204082  0.795725  0.258185   
1  0.096733  0.541198  0.757652  1.395583  0.263235  0.507324  0.525919   
2  0.028613  0.364365  0.924733  1.317711  0.196243  0.653408  0.174911   
3  0.831569  0.738029  0.294473  1.864071  0.528785  0.654160  0.940831   
4  0.263250  0.855270  0.264698  1.383218  0.853517  0.803087  0.701937   
5  0.069519  0.374411  0.846647  1.290577  0.239797  0.943544  0.189361   
6  0.290414  0.873785  0.118713  1.282912  0.980734  0.850097  0.903645   
7  0.088387  0.062140  0.872064  1.022591  0.591942  0.566298  0.568482   
8  0.061483  0.008404  0.658370  0.728257  0.818167  0.282050  0.449198   
9  0.427602  0.171458  0.234426  0.833486  0.217424  0.471933  0.390549   

        sum  
     julian  
0  1.257992  
1  1.296478  
2  1.024562  
3  2.123776  
4  2.358541  
5  1.372702  
6  2.734476  
7  1.726722  
8  1.549415  
9  1.079906 

我刚才说过,“这是我的df,让我们先按人名分组并求和,然后将这两个求和列与原始的df连接起来,然后使用sortlevellevel=1axis=1排序。”

所以,仅仅因为字母sC之后,'sum' 才出现在C列之后。如果你有一个名为x的列,这种方法就行不通了。不确定这是否重要。

这是我用于演示的df

df = pd.DataFrame({
      ('C', 'julian'): [0.258185, 0.52591899999999991, 0.17491099999999998, 0.94083099999999997, 0.70193700000000003, 0.189361, 0.90364500000000003, 0.56848199999999993, 0.44919799999999993, 0.39054899999999998],
      ('B', 'geoffrey'): [0.27970200000000001, 0.54119799999999996, 0.36436499999999999, 0.73802900000000005, 0.85527000000000009, 0.37441099999999999, 0.87378500000000003, 0.062140000000000001, 0.008404, 0.171458], 
      ('A', 'julian'): [0.20408199999999999, 0.263235, 0.196243, 0.52878500000000006, 0.85351699999999997, 0.23979699999999998, 0.98073399999999999, 0.59194199999999997, 0.81816699999999998, 0.21742399999999998], 
      ('B', 'julian'): [0.79572500000000002, 0.507324, 0.65340799999999999, 0.65416000000000007, 0.803087, 0.94354400000000005, 0.85009699999999988, 0.56629799999999997, 0.28205000000000002, 0.47193299999999999], 
      ('A', 'geoffrey'): [0.073676000000000005, 0.096733, 0.028613, 0.831569, 0.26324999999999998, 0.069519000000000011, 0.29041400000000001, 0.088387000000000007, 0.061483000000000003, 0.42760200000000004], 
      ('C', 'geoffrey'): [0.25811200000000001, 0.75765199999999999, 0.92473300000000003, 0.29447299999999998, 0.26469799999999999, 0.84664699999999993, 0.11871300000000001, 0.87206399999999995, 0.65837000000000001, 0.23442600000000002]},
      columns=pd.MultiIndex.from_tuples([('A','julian'),('A','geoffrey'), ('B','julian'),('B','geoffrey'), ('C','julian'),('C','geoffrey')]))

编辑:

这里有另一种方法:

sum_columns = [('sum', name) for name in df.columns.levels[1].tolist()]
df[sum_columns] = df.groupby(axis=1, level=1).sum()
df = df.sortlevel(level=1, axis=1)

sum_columns - 看起来像这样 [('sum', 'geoffrey'), ('sum', 'julian')]

df[sum_columns] 为第一级别上的每个名称创建了一个新的“sum”列。

如果希望将总和列放在名称旁边,请使用sortlevel


那是一个不错的代码! - Zero
太棒了!我认为这会起作用(实际函数和数据框更复杂,但不明白为什么这不能转移)。非常感谢。你知道为什么apply没有起作用吗?还在努力理解。 - jjvandermade
我想到的一个想法是,你的函数中 group = inputDF.columns[0][1] 返回字符串 julian。由于你正在将一个函数应用于具有多个组('julian'、'geoffrey')的 DataFrameGroupBy 对象,也许它不知道如何处理 geoffrey?我可能完全错了。addColumn(dataframe)确实会返回一个 (sum, julian) 列,但是该列中的总和是每行中 julian 和 geoffrey 的总和。我认为你想要按人员汇总,因此你的函数可能需要更改。 - Jarad
我明白了。它返回的列应该仅是个人的总和,对吗?因为我按照人员分组(级别=1),然后将该函数应用于每个组?或者说,.apply并不会导致该函数被应用于作为数据帧的每个组,这不是真的吗?(顺便说一句,你的答案实际上在我的代码中起作用了。谢谢你的帮助!) - jjvandermade
你提出了非常好的观点。我不知道(这让我感到困扰),因为我已经仔细查看了你的函数,发现它确实做到了我所期望的。如果我弄清楚了,我会告诉你的! - Jarad

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接