I have a list such as
groups = [['Group1', 'A', 'B'], ['Group2', 'C', 'D']]
一个类似下面的数据框:
A 100
B 200
C 300
D 400
我想把上面的列表分组求和,变成以下结果:
Group 1 300
Group 2 700
我该如何使用Python Pandas来完成这个任务? 不用说我是Pandas的新手。谢谢。
你需要通过 lists
创建一个 dict
,接着使用 groupby
并聚合 sum
:
df = pd.DataFrame({'a': ['A', 'B', 'C', 'D'], 'b': [100, 200, 300, 400]})
print (df)
a b
0 A 100
1 B 200
2 C 300
3 D 400
groups = [['Group1', 'A', 'B'], ['Group2', 'C', 'D']]
#https://dev59.com/8FgQ5IYBdhLWcg3wJwkv
d = {k:row[0] for row in groups for k in row[1:]}
print (d)
{'B': 'Group1', 'C': 'Group2', 'D': 'Group2', 'A': 'Group1'}
print (df.set_index('a').groupby(d).sum())
b
Group1 300
Group2 700
如果只有列 b
是通过 sum
进行聚合的,那么可以稍微修改解决方案。最后使用 reset_index
将索引转换为列。
df1 = df.set_index('a').groupby(pd.Series(d, name='a'))['b'].sum().reset_index()
print (df1)
a b
0 Group1 300
1 Group2 700
df2 = df.groupby(df['a'].map(d))['b'].sum().reset_index()
print (df2)
a b
0 Group1 300
1 Group2 700
另一种选择...但似乎@jezrael的方式更好!
import pandas as pd
groups = [['Group1', 'A', 'B'], ['Group2', 'C', 'D']]
df0 = pd.melt(pd.DataFrame(groups).set_index(0).T)
df1 = pd.read_clipboard(header=None) # Your example data
df = df1.merge(df0, left_on=0, right_on='value')[['0_y', 1]]
df.columns = ['Group', 'Value']
print df.groupby('Group').sum()
Value
Group
Group1 300
Group2 700
groups
和数据框df
。groups = [['Group1', 'A', 'B'], ['Group2', 'C', 'D']]
df = pd.DataFrame(dict(a=list('ABCD'), b=range(100, 401, 100)))
然后:
df.groupby(df.a.map({k: g for g, *c in groups for k in c})).sum()
b
a
Group1 300
Group2 700