如何在Python Pandas中对同一列进行分组并计算唯一值的数量和某个值的数量？

Question

如何在Python Pandas中对同一列进行分组并计算唯一值的数量和某个值的数量？

3

我的问题与我之前的问题有关，但不同。因此，我要问一个新问题。

在上面的问题中，请查看@jezrael的答案。

df = pd.DataFrame({'col1':[1,1,1],
                   'col2':[4,4,6],
                   'col3':[7,7,9],
                   'col4':[3,3,5]})

print (df)
   col1  col2  col3  col4
0     1     4     7     3
1     1     4     7     3
2     1     6     9     5

df1 = df.groupby(['col1','col2']).agg({'col3':'size','col4':'nunique'})
df1['result_col'] = df1['col3'].div(df1['col4'])
print (df1)
           col4  col3  result_col
col1 col2                        
1    4        1     2         2.0
     6        1     1         1.0

现在我想针对col4的特定值进行计数。比如我还想在同一个查询中计算col4 == 3的数量。

df.groupby(['col1','col2']).agg({'col3':'size','col4':'nunique'}) ... + count(col4=='3')

如何在同一个查询中完成此操作？我已经尝试了以下查询，但没有得到解决方案。

df.groupby(['col1','col2']).agg({'col3':'size','col4':'nunique','col4':'x: lambda x[x == 7].count()'})

- Mayur Patel

2个回答

2

事先将col4==3包含为一列来进行一些预处理。然后使用aggregate

df.assign(result_col=df.col4.eq(3).astype(int)).groupby(
    ['col1', 'col2']
).agg(dict(col3='size', col4='nunique', result_col='sum'))

           col3  result_col  col4
col1 col2                        
1    4        2           2     1
     6        1           0     1

旧答案

g = df.groupby(['col1', 'col2'])
g.agg({'col3':'size','col4': 'nunique'}).assign(
    result_col=g.col4.apply(lambda x: x.eq(3).sum()))

           col3  col4  result_col
col1 col2                        
1    4        2     1           2
     6        1     1           0

稍作调整

g = df.groupby(['col1', 'col2'])
final_df = g.agg({'col3':'size','col4': 'nunique'})
final_df.insert(1, 'result_col', g.col4.apply(lambda x: x.eq(3).sum()))
final_df

           col3  result_col  col4
col1 col2                        
1    4        2           2     1
     6        1           0     1

- piRSquared

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- jezrael · Accepted Answer

我认为你需要使用字典中的函数列表对列col4进行聚合，可以使用aggregate方法。

如果需要计算3的数量，最简单的方法是在x == 3中使用sum函数来计算True值：

df1 = df.groupby(['col1','col2'])
        .agg({'col3':'size','col4': ['nunique', lambda x: (x == 3).sum()]})
df1 = df1.rename(columns={'<lambda>':'count_3'})
df1.columns = ['{}_{}'.format(x[0], x[1]) for x in df1.columns]
print (df1)
           col4_nunique  col4_count_3  col3_size
col1 col2                                       
1    4                1             2          2
     6                1             0          1