按分位数对Pandas数据框进行排名。

3

我有一个 Pandas 数据框,其中每一列代表一个单独的属性,每一行存储了特定日期上该属性的值:

import pandas as pd

dfstr = \
'''         AC        BO         C       CCM        CL       CRD        CT        DA        GC        GF
2010-01-19  0.844135 -0.194530 -0.231046  0.245615 -0.581238 -0.593562  0.057288  0.655903  0.823997  0.221920
2010-01-20 -0.204845 -0.225876  0.835611 -0.594950 -0.607364  0.042603  0.639168  0.816524  0.210653  0.237833
2010-01-21  0.824852 -0.216449 -0.220136  0.234343 -0.611756 -0.624060  0.028295  0.622516  0.811741  0.201083'''
df = pd.read_csv(pd.compat.StringIO(dfstr), sep='\s+')

使用rank方法,我可以找到每个属性相对于特定日期的百分位排名:
df.rank(axis=1, pct=True)

输出:

             AC   BO    C  CCM   CL  CRD   CT   DA   GC   GF
2010-01-19  1.0  0.4  0.3  0.7  0.2  0.1  0.5  0.8  0.9  0.6
2010-01-20  0.4  0.3  1.0  0.2  0.1  0.5  0.8  0.9  0.6  0.7
2010-01-21  1.0  0.4  0.3  0.7  0.2  0.1  0.5  0.8  0.9  0.6

我希望得到的是每个属性的分位数(例如四分位数、五分位数、十分位数等)排名。例如,对于五分位数排名,我的期望输出将是:

             AC   BO    C  CCM   CL  CRD   CT   DA   GC   GF
2010-01-19   5    2     2  4     1   1     3    4    5    3
2010-01-20   2    2     5  1     1   3     4    5    3    4
2010-01-21   5    2     2  4     1   1     3    4    5    3

我可能漏掉了一些东西,但似乎没有内置的方法在Pandas中进行这种分位数排名。如何以最简单的方式获取所需的输出结果?


对于一行解决方案感兴趣。不过,一旦您通过“percentile”获得了排名,获取四分位数等只需要再加一行“map”即可。 - Quang Hoang
@QuangHoang 是的,这确实很棘手。此外,如果存在重复或缺失数据,可能还需要考虑一些额外的边缘情况。 - tel
2个回答

6

方法一 mulnp.ceil

您的排名方法已经很接近了。只需使用.mul将数值乘以5,以获得所需的分位数,并使用np.ceil进行向上取整:

np.ceil(df.rank(axis=1, pct=True).mul(5))

输出

             AC   BO    C  CCM   CL  CRD   CT   DA   GC   GF
2010-01-19  5.0  2.0  2.0  4.0  1.0  1.0  3.0  4.0  5.0  3.0
2010-01-20  2.0  2.0  5.0  1.0  1.0  3.0  4.0  5.0  3.0  4.0
2010-01-21  5.0  2.0  2.0  4.0  1.0  1.0  3.0  4.0  5.0  3.0

如果您需要使用整数,请使用astype
np.ceil(df.rank(axis=1, pct=True).mul(5)).astype(int)

甚至更好的是 自从pandas版本0.24.0以来,我们拥有了可空整数类型:Int64
因此,我们可以使用:

np.ceil(df.rank(axis=1, pct=True).mul(5)).astype('Int64')

输出

            AC  BO  C  CCM  CL  CRD  CT  DA  GC  GF
2010-01-19   5   2  2    4   1    1   3   4   5   3
2010-01-20   2   2  5    1   1    3   4   5   3   4
2010-01-21   5   2  2    4   1    1   3   4   5   3

方法二 scipy.stats.percentileofscore

d = df.apply(lambda x: [np.ceil(stats.percentileofscore(x, a, 'rank')*0.05) for a in x], axis=1).values

pd.DataFrame(data=np.concatenate(d).reshape(d.shape[0], len(d[0])), 
             columns=df.columns, 
             dtype='int', 
             index=df.index)

输出

            AC  BO  C  CCM  CL  CRD  CT  DA  GC  GF
2010-01-19   5   2  2    4   1    1   3   4   5   3
2010-01-20   2   2  5    1   1    3   4   5   3   4
2010-01-21   5   2  2    4   1    1   3   4   5   3

啊,太好了。我不知道 np.ceil 可以直接在数据框上运行而无需进一步强制转换。 - tel
是的,因为DataFrame的底层数据是数组。所以可以对它们应用numpy函数。 - Erfan
为了方便起见,我知道我曾经使用过scipy模块中的一个方法来完成这个任务。现在添加了另一个方法@tel以生成相同的输出。 - Erfan
很好。我知道数据框包装了Numpy数组,但我想知道Numpy/Panda开发人员想出了什么诡计,使得np.ceil可以从np.ceil返回所需的类型(即pd.DataFrame),而不是标准的np.ndarray - tel
另外,有一个小问题:当存在缺失数据时,.astype(int)无法工作,因为NaN是浮点数。好消息是,到目前为止,这是我在您的解决方案中发现的唯一边缘情况故障。 - tel
关于 NaN 的问题,你说得很好。我已经添加了一个包含可空整数类型的解决方案。@ tel - Erfan

0
你现在可以使用pd.qcut
df.apply(lambda x: pd.qcut(x, 5, labels=False)+1, axis=1)

已完成的测试案例代码

import pandas as pd
from io import StringIO

dfstr = \
'''         AC        BO         C       CCM        CL       CRD        CT        DA        GC        GF
2010-01-19  0.844135 -0.194530 -0.231046  0.245615 -0.581238 -0.593562  0.057288  0.655903  0.823997  0.221920
2010-01-20 -0.204845 -0.225876  0.835611 -0.594950 -0.607364  0.042603  0.639168  0.816524  0.210653  0.237833
2010-01-21  0.824852 -0.216449 -0.220136  0.234343 -0.611756 -0.624060  0.028295  0.622516  0.811741  0.201083'''

df = pd.read_csv(StringIO(dfstr), sep='\s+')

print('input:','\n',df)

输入

                   AC        BO         C       CCM        CL       CRD   
2010-01-19  0.844135 -0.194530 -0.231046  0.245615 -0.581238 -0.593562  \
2010-01-20 -0.204845 -0.225876  0.835611 -0.594950 -0.607364  0.042603   
2010-01-21  0.824852 -0.216449 -0.220136  0.234343 -0.611756 -0.624060   

                  CT        DA        GC        GF  
2010-01-19  0.057288  0.655903  0.823997  0.221920  
2010-01-20  0.639168  0.816524  0.210653  0.237833  
2010-01-21  0.028295  0.622516  0.811741  0.201083  


df_out = df.apply(lambda x: pd.qcut(x, 5, labels=False)+1, axis=1)

print('\n','output:','\n', df_out)

output

             AC  BO  C  CCM  CL  CRD  CT  DA  GC  GF
2010-01-19   5   2  2    4   1    1   3   4   5   3
2010-01-20   2   2  5    1   1    3   4   5   3   4
2010-01-21   5   2  2    4   1    1   3   4   5   3

欢迎来到Stack Overflow。请像已接受的答案中所示,用输入验证您的回答。 - undefined

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接