PANDAS如何计算分位数?不同提问方式得到的答案不同。

3
两天前问题的新解决方案。
当您拥有大量数据集时,PANDAS可以让您在生成统计信息的同时进行就地过滤,因此您不必为所有内容创建新的数据框架。目前,我怀疑这样做有一个微妙之处,因为用两种不同的方式 - 一种是“智能”方式,另一种是“显式”方式,会给我带来非常不同的答案,其中一个明显是正确的(显式),而另一个则明显是错误的(智能方式)。
请问有人可以指出我缺少什么吗?
以下是详细信息。
我有250万行数据,描述了一系列不同设备类型的故障时间。其中两个的描述性统计如下。(注意,这实际上是采矿设备,但我必须对某些内容进行消毒,因此我替换了名称)。
                                   Count        Min        Mean          Max
CC_CauseLocationEquipmentType                                           
Coffee Machines                    204136  0.000556   71.797146  23407.41667
Blenders                            52424  0.008333  750.880591  23077.79167

如果我尝试使用以下代码获取设备故障时间的分位数: ``` print(df2.groupby("CC_CauseLocationEquipmentType").quantile([.1, .25, .5, .75,0.9,0.95,0.99,0.99999])) ``` 那么我会看到以下分位数。
                                            CC_TBF
CC_CauseLocationEquipmentType                     
Coffee Machines               0.10000     0.005556
                              0.25000     0.238889
                              0.50000     1.775000
                              0.75000     2.595833
                              0.90000     4.611389
                              0.95000     7.008125
                              0.99000    15.465278
                              0.99999    21.089619    <-- Nowhere near the max of 23407.41667
Blenders                      0.10000    57.731806
                              0.25000   394.004375
                              0.50000     0.288889
                              0.75000     7.201528
                              0.90000    51.015667
                              0.95000    83.949833
                              0.99000   123.148019
                              0.99999   133.708716    <-- Nowhere near the max of 23077.79167

这显然是不正确的,因为99.999%分位数远未接近那些设备类型的最大值。此外,请注意Blender分位数数据集中间的“重置”部分。我之前问过这个问题:Pandas quantiles misbehaving by... getting smaller partway through a range of percentiles? 尽管该问题仍未解决,但我认为这个新问题也有助于解决它。

当我单独考虑分位数时,得到更明智的结果。使用以下代码:

print("Quantiles - type by type - Coffee Machines")
df3=df2.loc[df2['CC_CauseLocationEquipmentType'] == "Coffee Machines"]
print(df3.quantile([.1, .25, .5, .75,0.9,0.95,0.99,0.99999]) )

print("Quantiles - type by type - Blenders")
df3=df2.loc[df2['CC_CauseLocationEquipmentType'] == "Blenders"]
print(df3.quantile([.1, .25, .5, .75,0.9,0.95,0.99,0.99999]) )

我现在明白了:
Quantiles - type by type - Coffee Machines
               CC_TBF
0.10000      0.120556
0.25000      0.608333
0.50000      2.040556
0.75000      3.494514
0.90000     18.047917
0.95000    129.798403
0.99000   1644.764861
0.99999  23003.517729   <-- Pretty darn close to the max of 23407
Quantiles - type by type - Blenders
               CC_TBF
0.10000      0.226111
0.25000      0.941667
0.50000     37.924167
0.75000    388.554444
0.90000   1955.252500
0.95000   4301.835320
0.99000  11362.310594
0.99999  22831.372845   <--- pretty darn close to the max of 23077

有人能告诉我为什么这两种不同的方法会得出如此不同的结果,以及我使用的groupby为什么给我一个看起来很奇怪、似乎随意的结果?groupby是否以某种方式使用了与我在第二个“显式”方法中所做的不同的完整数据子集?

请检查 https://github.com/pandas-dev/pandas/issues/27526,看看您是否使用的是该版本或问题是否相同。嗯,但在那里它会崩溃... - Joe
但为了更容易调试,请尝试第一篇帖子中的代码并应用您的两个不同版本。这应该显示相同的行为,但更容易理解。 - Joe
顺便提一下,请使用类似的示例数据重写您上面的问题。我们需要一个最小的工作示例。不需要提及数百万行,哪种数据或其他内容。一些小而整洁的东西更容易处理,通常显示相同的行为。人们只需复制粘贴代码并尝试它,而无需您发布大量数据或人们询问它。 https://stackoverflow.com/help/minimal-reproducible-example - Joe
嗨@Joe - 我尝试获取同样数据的较小集合,但没有看到问题。我还尝试生成相同大小的虚拟数据集,也没有看到问题。请注意,在这两种情况下,我都使用了相同的Python代码,但不再看到故障。因此,似乎我要么必须发布原始数据集,要么花费比我的当前时间表允许的更多时间来调试,特别是现在我已经有了解决方法。我想帮助找出问题所在,以防它是例程的问题,但那将不得不等待 - 甚至可能永远不会发生... - Steve McGahey
2个回答

2
非常有趣。显然,在我的Pandas版本(0.25.1)中,df.groupby(...).quantile(<array-like>)存在至少一个错误。那个代码路径不同,似乎甚至在非常简单的示例上也有问题:
df = pd.DataFrame(
    {"A": [0., 0., 0.], "B": ["X", "Y", "Z"]}
)
result = df.groupby("B").quantile([0.5, 0.9])

虽然这在一个包含两个元素的版本上可以运行:

df = pd.DataFrame(
    {"A": [0., 0.], "B": ["X", "Y"]}
)
result = df.groupby("B").quantile([0.5, 0.9])

我建议不要在类似数组的对象上使用groupby和quantile,直到代码修复为止,即使它现在可以工作,因为很可能存在错误。

同时,Blame也显示了许多相当新的更新(10、16个月),正好处理这些代码片段。


只是澄清一下 - 在pandas版本0.25.1上,第一个示例在调用分位数时抛出了“IndexError:indices are out-of-bounds”异常。 - Alexander Pivovarov

1

在@alexander-pivovarov的回答中,两个示例都没有展示分位数。每个组只有一个元素,所以结果总是零。或者我理解错了吗?

我使用的是 pandas 0.25.3 版本,并获得了有用的结果。

import pandas as pd

df = pd.DataFrame(
    {"A": [1., 2., 3., 4., 5., 6.], "B": ["X", "X", "Y", "Y", "Z", "Z"]}
)
result = df.groupby("B").quantile([0.5, 0.9])
print(result)

输出:

        A
B         
X 0.5  1.5
  0.9  1.9
Y 0.5  3.5
  0.9  3.9
Z 0.5  5.5
  0.9  5.9

如果使用单个数字传递给quantiles()可以运行,您可以像这样进行一些修改:
q = [0.2, 0.5, 0.9]
res = [df.groupby("B").quantile(_).loc['X', 'A'] for _ in q]

df_q = pd.DataFrame({'A':res, 'quantiles':q})

print(df_q)

输出:

     A  quantiles
0  1.2        0.2
1  1.5        0.5
2  1.9        0.9

直到它被修复为止。

只是澄清一下 - 在0.25.1版本上以零运行此示例应该会抛出异常。然而,版本0.25.3在该示例上工作得很好(没有异常)。 - Alexander Pivovarov

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接