Pandas交叉表，但使用第三列聚合的值

Question

Pandas交叉表，但使用第三列聚合的值

6

这是我的问题：

df = pd.DataFrame({'A': ['one', 'one', 'two', 'two', 'one'] ,
                   'B': ['Ar', 'Br', 'Cr', 'Ar','Ar'] ,
                   'C': [1, 0, 0, 1,0 ]})

我希望生成类似于pd.crosstab函数的输出，但是列和行交叉点上的值应该来自第三列的聚合结果：

    Ar,  Br, Cr
one 0.5 0  0
two 1  0  0

例如，对于'C'列中对应值为1和0的'one'和'Ar'两种情况，我们将'C'列中的值相加（0+1），并除以'C'列中的值的数量，因此我们得到(0+1)/2=0.5。当组合不存在时（例如'Cr'和'one'），我们将其设置为零。有什么想法吗？

- user1700890

2个回答

6

我喜欢使用 groupby 和 unstack

df.groupby(['A', 'B']).C.mean().unstack(fill_value=0)

- piRSquared

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- MaxU - stand with Ukraine · Accepted Answer

您可以使用 pivot_table() 方法，该方法默认使用aggfunc = 'mean'：

In [46]: df.pivot_table(index='A', columns='B', values='C', fill_value=0)
Out[46]:
B     Ar  Br  Cr
A
one  0.5   0   0
two  1.0   0   0