Pandas:计算列分组的中位数

5

给定以下数据框:

import pandas as pd

df = pd.DataFrame({'COL1': ['A', 'A','A','A','B','B'], 
                   'COL2' : ['AA','AA','BB','BB','BB','BB'],
                   'COL3' : [2,3,4,5,4,2],
                   'COL4' : [0,1,2,3,4,2]})
df
    COL1    COL2    COL3    COL4
0    A       AA      2       0
1    A       AA      3       1
2    A       BB      4       2
3    A       BB      5       3
4    B       BB      4       4
5    B       BB      2       2

我希望尽可能高效地(即通过groupby和lambda x或更好的方式)找到每个不同的列1和列2组的列3和列4的中位数。

期望的结果如下:

    COL1    COL2    COL3    COL4  MEDIAN
0    A       AA      2       0    1.5
1    A       AA      3       1    1.5
2    A       BB      4       2    3.5
3    A       BB      5       3    3.5
4    B       BB      4       4    3
5    B       BB      2       2    3

提前感谢您!


到目前为止,只有这个:df['MEDIAN'] = df.groupby(['COL1', 'COL2'])[['COL3', 'COL4']].transform(lambda x: x.median()) - Dance Party
2个回答

9

你已经有了这个想法——按COL1和COL2分组,并计算中位数。

m = df.groupby(['COL1', 'COL2'])[['COL3','COL4']].apply(np.median)
m.name = 'MEDIAN'

print df.join(m, on=['COL1', 'COL2'])

  COL1 COL2  COL3  COL4  MEDIAN
0    A   AA     2     0     1.5
1    A   AA     3     1     1.5
2    A   BB     4     2     3.5
3    A   BB     5     3     3.5
4    B   BB     4     4     3.0
5    B   BB     2     2     3.0

谢谢!如果我有一些NaN值怎么办?如何忽略它们而不会导致NaN结果(就像您的解决方案应用当前NaN值的情况一样)? - Dance Party
1
请使用np.nanmedian代替np.median - Happy001
@Happy001 如果使用 df.groupby(['COL1', 'COL2'])[['COL3','COL4']].median() 也可以。 - Qaswed

1
df.groupby(['COL1', 'COL2']).median()[['COL3','COL4']]

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接