我有一个含有四列的pd.DataFrame
df = pd.DataFrame({'id':[1,1,1,1,1,2,2,2,2]
, 'A':['H','H','E','E','H','E','E','H','H']
, 'B':[4,5,2,7,6,1,3,1,0]
, 'C':['M','D','M','D','M','M','M','D','D']})
id A B C
0 1 H 4 M
1 1 H 5 D
2 1 E 2 M
3 1 E 7 D
4 1 H 6 M
5 2 E 1 M
6 2 E 3 M
7 2 H 1 D
8 2 H 0 D
我想按id分组,并获取每个id中A='H'的第n个(比如第二个)出现的B值,以及C='M'的第n个(比如第一个)出现的B值:
desired output:
id agg_B1 agg_B2
0 1 5 4
1 2 0 1
desired_output = df.groupby('id').agg(
agg_B1= ('B',lambda x:x[df.loc[x.index].loc[df.A== 'H'][1]])
, agg_B2= ('B',lambda x:x[df.loc[x.index].loc[df.C== 'M'][0]])
).reset_index()
TypeError: Indexing a Series with DataFrame is not supported, use the appropriate DataFrame column
显然,我在索引方面做错了些什么。
编辑:如果可能的话,我想使用带有lambda函数的聚合函数,因为我还想同时提取其他类型的多个聚合输出。
.iat[1]
的组没有第二个值,解决方案也会失败) - jezrael