基于两列数值对pandas进行分组

4

I have this dataframe:

df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
                          'fuz', 'baz', 'fuz', 'coo'],
                   'B' : ['one', 'one', 'two', 'two',
                          'three', 'three', 'four', 'one']})

看起来像这样:

    A      B
0  foo    one
1  bar    one
2  foo    two
3  bar    two
4  fuz  three
5  baz  three
6  fuz   four
7  coo    one

我想创建一个新列 group。该列将汇总列A + B中唯一值的组合。
它会查找每个列的唯一值。然后查看组中已有元素的另一列中的值。
结果将如下所示:
    A      B    group
0  foo    one     1
1  bar    one     1
2  foo    two     1
3  bar    two     1
4  fuz  three     2
5  baz  three     2
6  fuz   four     2
7  coo    one     1

在这个例子中,我们从列A的foo开始。所有的foo都将被归入group1。相关的B列数值是onetwo, 也被归入group1
与A列中onetwo相关的数值是foo, barcoo,也被归入group1
同样的原则也适用于group2
最佳实现方式是什么?
2个回答

1

这可能是您要找的内容,它有一些硬编码,但具有所需的输出:

import pandas as pd
import numpy as np

df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
                          'fuz', 'baz', 'fuz', 'coo'],
                   'B' : ['one', 'one', 'two', 'two',
                          'three', 'three', 'four', 'one']})
g1 = df[df['A']=='foo']
df['group'] = np.where(df['A'].isin(g1['A'])|df['B'].isin(g1['B']),1,2)

0

在zipa发布的答案基础上,我认为我的代码可以适用于所有情况,例如,df的数据将被分成3组。

df = pd.DataFrame({'A' : ['foo', 'bae', 'foo', 'bar',
                          'fuz', 'baz', 'fzz', 'coo'],
                   'B' : ['one', 'one', 'two', 'two',
                          'three', 'three', 'four', 'one']})
df['group'] = [None]*len(df)
i = 1
while True:
  value = df[df['group'].isnull()].iloc[0, 0]
  g1 = df[df['A']==value]
  df['group']=np.where(df['A'].isin(g1['A'])|df['B'].isin(g1['B']),i,df['group'])
  if not any(df['group'].isnull()):
     break
  i += 1
print(df)

结果就像这样

         A      B group
0  foo    one     1
1  bae    one     1
2  foo    two     1
3  bar    two     1
4  fuz  three     2
5  baz  three     2
6  fzz   four     3
7  coo    one     1

希望能帮到你


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接