在pandas中创建dataframe的分组

Question

在pandas中创建dataframe的分组

5

I have a list such as

groups = [['Group1', 'A', 'B'], ['Group2', 'C', 'D']]

一个类似下面的数据框：

我想把上面的列表分组求和，变成以下结果：

Group 1 300
Group 2 700

我该如何使用Python Pandas来完成这个任务？不用说我是Pandas的新手。谢谢。

- Caglar

3个回答

1

另一种选择...但似乎@jezrael的方式更好！

import pandas as pd

groups = [['Group1', 'A', 'B'], ['Group2', 'C', 'D']]

df0 = pd.melt(pd.DataFrame(groups).set_index(0).T)
df1 = pd.read_clipboard(header=None)  # Your example data

df = df1.merge(df0, left_on=0, right_on='value')[['0_y', 1]]
df.columns = ['Group', 'Value']

print df.groupby('Group').sum()


        Value
Group        
Group1    300
Group2    700

- su79eu7k

1

使用Python 3的拆包和推导式创建字典。将该字典用于映射第一列。使用该映射进行分组。

考虑列表groups和数据框df。

groups = [['Group1', 'A', 'B'], ['Group2', 'C', 'D']]
df = pd.DataFrame(dict(a=list('ABCD'), b=range(100, 401, 100)))

然后：

df.groupby(df.a.map({k: g for g, *c in groups for k in c})).sum()

          b
a          
Group1  300
Group2  700

- piRSquared

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- jezrael · Accepted Answer

你需要通过 lists 创建一个 dict，接着使用 groupby 并聚合 sum：

df = pd.DataFrame({'a': ['A', 'B', 'C', 'D'], 'b': [100, 200, 300, 400]})
print (df)
   a    b
0  A  100
1  B  200
2  C  300
3  D  400

groups = [['Group1', 'A', 'B'], ['Group2', 'C', 'D']]

#https://dev59.com/8FgQ5IYBdhLWcg3wJwkv
d = {k:row[0] for row in groups for k in row[1:]}
print (d)
{'B': 'Group1', 'C': 'Group2', 'D': 'Group2', 'A': 'Group1'}

print (df.set_index('a').groupby(d).sum())
          b
Group1  300
Group2  700

如果只有列 b 是通过 sum 进行聚合的，那么可以稍微修改解决方案。最后使用 reset_index 将索引转换为列。

df1 = df.set_index('a').groupby(pd.Series(d, name='a'))['b'].sum().reset_index()
print (df1)
        a    b
0  Group1  300
1  Group2  700

df2 = df.groupby(df['a'].map(d))['b'].sum().reset_index()
print (df2)
        a    b
0  Group1  300
1  Group2  700