使用Python/Pandas合并值

Question

使用Python/Pandas合并值

3

我是一位Python/Pandas用户，有一个关于它的问题。我有一个如下的Excel文件。

   C1  C2  C3  C4     C5     C6  ID  Value
0  aa  ee  ii  mm  aaaaa   bbbb   1    100
1  bb  ff  jj  nn   cccc  ddddd   2     50
2  aa  ee  ii  mm   eeee   ffff   3     20
3  dd  hh  ll  pp   gggg   hhhh   4     10
4  aa  ee  ii  mm   abcd   efgh   5      5
5  bb  ff  jj  nn  aaaaa   bbbb   6      2

代码复现：

``` //请提供代码 ```

df = pd.DataFrame({'Value': [100,50,20,10,5,2],
'ID': [1,2,3,4,5,6],
'C1': ['aa','bb','aa','dd','aa','bb'],
'C2': ['ee','ff','ee','hh','ee','ff'],
'C3': ['ii','jj','ii','ll','ii','jj'],
'C4': ['mm','nn','mm','pp','mm','nn'],
'C5': ['aaaaa','cccc','eeee','gggg','abcd','aaaaa'],
'C6': ['bbbb','ddddd','ffff','hhhh','efgh','bbbb']})

在第1到4列中有一些重复的行（例如，ID1、ID3和ID5或ID2和ID6是重复的）。

有没有办法将重复的行合并？（我关注第1到4列，不关心第5和第6列）

我想将重复行的“Value”合并，并保留顶部列的顺序。例如，这里是我想要制作的输出文件。

    Value   ID  C1  C2  C3  C4  C5      C6
0   125     1   aa  ee  ii  mm  aaaaa   bbbb
1   52      2   bb  ff  jj  nn  cccc    ddddd
2   10      4   dd  hh  ll  pp  gggg    hhhh

如果您能给我您的意见，我将非常感激。

- Tom_Hanks

2个回答

1

您可以使用 groupby.agg。我假设您希望对每个组进行value求和，并取每个组的第一个id，就像您所期望的输出一样。以下是一个简单的示例：

df = pd.DataFrame([[100, 1, 'a', 'b'], [20, 2, 'a', 'b'],
                   [15, 3, 'c', 'd'], [5, 4, 'a', 'b'],
                   [25, 5, 'c', 'd']], columns=['value', 'id', 'col1', 'col2'])

res = df.groupby(['col1', 'col2']).agg({'id': 'first', 'value': sum}).reset_index()

print(res)

  col1 col2  id  value
0    a    b   1    125
1    c    d   3     40

- jpp

谢谢，jpp。不过，我想在原始文件中保留顶行的ID、Column5和Column6。 - Tom_Hanks

@Tom_Hanks，然后只需将其添加到您的字典中，例如'col5': 'first'等，如果您希望保留（任意数量的）其他列。 - jpp

2

@jpp 当然。有时候，提问者可能是初学者，可能会在推广解决方案方面遇到麻烦，但我认为这很简单 ;} - rafaelc

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- niraj · Accepted Answer

可能有其他更有效的方法，其中一种方法可能是：

创建new_df，使其保留Column1中的唯一值和第一次出现。
然后，在原始df上按Column1分组后获取总和，并更新new_df的值。

您可以尝试如下所示：

new_df = df.drop_duplicates(subset='Column1', keep='first').reset_index()
del new_df['index'] # remove extra index column after reset index
new_df['Value'] = df.groupby('Column1', as_index=False).sum()['Value']
print(new_df)

结果：

   ID  Value Column1 Column2 Column3 Column4 Column5 Column6
0   1    125      aa      ee      ii      mm   aaaaa    bbbb
1   2     52      bb      ff      jj      nn    cccc   ddddd
2   4     10      dd      hh      ll      pp    gggg    hhhh

更新:

编辑后检查数据框:

new_df = df.drop_duplicates(subset='C1', keep='first').reset_index()
del new_df['index']
new_df['Value'] = df.groupby('C1', as_index=False).sum()['Value']
print(new_df)

结果：

   C1  C2  C3  C4     C5     C6  ID  Value
0  aa  ee  ii  mm  aaaaa   bbbb   1    125
1  bb  ff  jj  nn   cccc  ddddd   2     52
2  dd  hh  ll  pp   gggg   hhhh   4     10