PANDAS如何计算分位数？不同提问方式得到的答案不同。

Question

PANDAS如何计算分位数？不同提问方式得到的答案不同。

pythonpandasdataframepandas-groupbyquantile

3

两天前问题的新解决方案。

当您拥有大量数据集时，PANDAS可以让您在生成统计信息的同时进行就地过滤，因此您不必为所有内容创建新的数据框架。目前，我怀疑这样做有一个微妙之处，因为用两种不同的方式 - 一种是“智能”方式，另一种是“显式”方式，会给我带来非常不同的答案，其中一个明显是正确的（显式），而另一个则明显是错误的（智能方式）。

请问有人可以指出我缺少什么吗？

以下是详细信息。

我有250万行数据，描述了一系列不同设备类型的故障时间。其中两个的描述性统计如下。（注意，这实际上是采矿设备，但我必须对某些内容进行消毒，因此我替换了名称）。

                                   Count        Min        Mean          Max
CC_CauseLocationEquipmentType                                           
Coffee Machines                    204136  0.000556   71.797146  23407.41667
Blenders                            52424  0.008333  750.880591  23077.79167

如果我尝试使用以下代码获取设备故障时间的分位数： ``` print(df2.groupby("CC_CauseLocationEquipmentType").quantile([.1, .25, .5, .75,0.9,0.95,0.99,0.99999])) ``` 那么我会看到以下分位数。

                                            CC_TBF
CC_CauseLocationEquipmentType                     
Coffee Machines               0.10000     0.005556
                              0.25000     0.238889
                              0.50000     1.775000
                              0.75000     2.595833
                              0.90000     4.611389
                              0.95000     7.008125
                              0.99000    15.465278
                              0.99999    21.089619    <-- Nowhere near the max of 23407.41667
Blenders                      0.10000    57.731806
                              0.25000   394.004375
                              0.50000     0.288889
                              0.75000     7.201528
                              0.90000    51.015667
                              0.95000    83.949833
                              0.99000   123.148019
                              0.99999   133.708716    <-- Nowhere near the max of 23077.79167

这显然是不正确的，因为99.999%分位数远未接近那些设备类型的最大值。此外，请注意Blender分位数数据集中间的“重置”部分。我之前问过这个问题：Pandas quantiles misbehaving by... getting smaller partway through a range of percentiles? 尽管该问题仍未解决，但我认为这个新问题也有助于解决它。

当我单独考虑分位数时，得到更明智的结果。使用以下代码：

print("Quantiles - type by type - Coffee Machines")
df3=df2.loc[df2['CC_CauseLocationEquipmentType'] == "Coffee Machines"]
print(df3.quantile([.1, .25, .5, .75,0.9,0.95,0.99,0.99999]) )

print("Quantiles - type by type - Blenders")
df3=df2.loc[df2['CC_CauseLocationEquipmentType'] == "Blenders"]
print(df3.quantile([.1, .25, .5, .75,0.9,0.95,0.99,0.99999]) )

我现在明白了：

Quantiles - type by type - Coffee Machines
               CC_TBF
0.10000      0.120556
0.25000      0.608333
0.50000      2.040556
0.75000      3.494514
0.90000     18.047917
0.95000    129.798403
0.99000   1644.764861
0.99999  23003.517729   <-- Pretty darn close to the max of 23407
Quantiles - type by type - Blenders
               CC_TBF
0.10000      0.226111
0.25000      0.941667
0.50000     37.924167
0.75000    388.554444
0.90000   1955.252500
0.95000   4301.835320
0.99000  11362.310594
0.99999  22831.372845   <--- pretty darn close to the max of 23077

有人能告诉我为什么这两种不同的方法会得出如此不同的结果，以及我使用的groupby为什么给我一个看起来很奇怪、似乎随意的结果？groupby是否以某种方式使用了与我在第二个“显式”方法中所做的不同的完整数据子集？

- Steve McGahey

请检查 https://github.com/pandas-dev/pandas/issues/27526，看看您是否使用的是该版本或问题是否相同。嗯，但在那里它会崩溃... - Joe

但为了更容易调试，请尝试第一篇帖子中的代码并应用您的两个不同版本。这应该显示相同的行为，但更容易理解。 - Joe

顺便提一下，请使用类似的示例数据重写您上面的问题。我们需要一个最小的工作示例。不需要提及数百万行，哪种数据或其他内容。一些小而整洁的东西更容易处理，通常显示相同的行为。人们只需复制粘贴代码并尝试它，而无需您发布大量数据或人们询问它。 https://stackoverflow.com/help/minimal-reproducible-example - Joe

嗨@Joe - 我尝试获取同样数据的较小集合，但没有看到问题。我还尝试生成相同大小的虚拟数据集，也没有看到问题。请注意，在这两种情况下，我都使用了相同的Python代码，但不再看到故障。因此，似乎我要么必须发布原始数据集，要么花费比我的当前时间表允许的更多时间来调试，特别是现在我已经有了解决方法。我想帮助找出问题所在，以防它是例程的问题，但那将不得不等待 - 甚至可能永远不会发生... - Steve McGahey

2个回答

1

在@alexander-pivovarov的回答中，两个示例都没有展示分位数。每个组只有一个元素，所以结果总是零。或者我理解错了吗？

我使用的是 pandas 0.25.3 版本，并获得了有用的结果。

import pandas as pd

df = pd.DataFrame(
    {"A": [1., 2., 3., 4., 5., 6.], "B": ["X", "X", "Y", "Y", "Z", "Z"]}
)
result = df.groupby("B").quantile([0.5, 0.9])
print(result)

输出：

如果使用单个数字传递给quantiles()可以运行，您可以像这样进行一些修改：

q = [0.2, 0.5, 0.9]
res = [df.groupby("B").quantile(_).loc['X', 'A'] for _ in q]

df_q = pd.DataFrame({'A':res, 'quantiles':q})

print(df_q)

输出：

     A  quantiles
0  1.2        0.2
1  1.5        0.5
2  1.9        0.9

直到它被修复为止。

- Joe

只是澄清一下 - 在0.25.1版本上以零运行此示例应该会抛出异常。然而，版本0.25.3在该示例上工作得很好（没有异常）。 - Alexander Pivovarov

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Alexander Pivovarov · Accepted Answer

非常有趣。显然，在我的Pandas版本（0.25.1）中，df.groupby(...).quantile(<array-like>)存在至少一个错误。那个代码路径不同，似乎甚至在非常简单的示例上也有问题：

df = pd.DataFrame(
    {"A": [0., 0., 0.], "B": ["X", "Y", "Z"]}
)
result = df.groupby("B").quantile([0.5, 0.9])

虽然这在一个包含两个元素的版本上可以运行：

df = pd.DataFrame(
    {"A": [0., 0.], "B": ["X", "Y"]}
)
result = df.groupby("B").quantile([0.5, 0.9])

我建议不要在类似数组的对象上使用groupby和quantile，直到代码修复为止，即使它现在可以工作，因为很可能存在错误。

同时，Blame也显示了许多相当新的更新（10、16个月），正好处理这些代码片段。