Pandas - 按连续范围分组

Question

Pandas - 按连续范围分组

pythonpandasgroup-byintervals

9

我有一个如下结构的数据框：开始时间、结束时间和高度。

数据框的一些属性：

- 数据框中的每一行始于前一行的结束位置，即如果第n行的结束位置是100，则第n+1行的开始位置为101。 - 第n+1行的高度始终与第n行的高度不同（这是数据在不同行之间的原因）。

我想将数据框分组，使得高度按照5个为一组的区间进行分组，即区间为0、1-5、6-10、11-15和>15。

请参考以下代码示例，其中我正在寻找group_by_bucket函数的实现。

我尝试查看其他问题，但无法得到我所需要的确切答案。

提前致谢！

>>> d = pd.DataFrame([[1,3,5], [4,10,7], [11,17,6], [18,26, 12], [27,30, 15], [31,40,6], [41, 42, 7]], columns=['start','end', 'height'])
>>> d
   start  end  height
0      1    3       8
1      4   10       7
2     11   17       6
3     18   26      12
4     27   30      15
5     31   40       6
6     41   42       7
>>> d_gb = group_by_bucket(d)
>>> d_gb
   start  end height_grouped
0      1   17           6_10
1     18   30          11_15
2     31   42           6_10

- Moshe Einhorn

1

这不是一个重复的问题吗：https://dev59.com/vGEi5IYBdhLWcg3wRKjy?lq=1？在你的情况下，你想要在“height”上调用`cut`并传递一个范围，类似于`pd.cut(d['height'], bins=np.arange(1, d['height'].max()+1, 5))`。 - EdChum

在你的例子中，height_grouped 的值不是唯一的。d_gb 有三个组，但其中两个是相同的，因此你应该有一个额外的分组标准，这是你没有提到的。 - ayhan

2个回答

4

您可以使用 cut 和 groupby，通过 cut 和 Series 的 cumsum 生成分组，并通过 agg、first 和 last 进行聚合：

bins = [-1,0,1,5,10,15,100]
print bins
[-1, 0, 1, 5, 10, 15, 100]

cut_ser = pd.cut(d['height'], bins=bins)
print cut_ser
0     (5, 10]
1     (5, 10]
2     (5, 10]
3    (10, 15]
4    (10, 15]
5     (5, 10]
6     (5, 10]
Name: height, dtype: category
Categories (6, object): [(-1, 0] < (0, 1] < (1, 5] < (5, 10] < (10, 15] < (15, 100]]

print (cut_ser.shift() != cut_ser).cumsum()
0    0
1    0
2    0
3    1
4    1
5    2
6    2
Name: height, dtype: int32

print d.groupby([(cut_ser.shift() != cut_ser).cumsum(), cut_ser])
       .agg({'start' : 'first','end' : 'last'})
       .reset_index(level=1).reset_index(drop=True)
       .rename(columns={'height':'height_grouped'})

  height_grouped  start  end
0        (5, 10]      1   17
1       (10, 15]     18   30
2        (5, 10]     31   42

编辑：

时间安排：

In [307]: %timeit a(df)
100 loops, best of 3: 5.45 ms per loop

In [308]: %timeit b(d)
The slowest run took 4.45 times longer than the fastest. This could mean that an intermediate result is being cached 
100 loops, best of 3: 3.28 ms per loop

代码：

d = pd.DataFrame([[1,3,5], [4,10,7], [11,17,6], [18,26, 12], [27,30, 15], [31,40,6], [41, 42, 7]], columns=['start','end', 'height'])
print d

df = d.copy()


def a(df):
    df['groups']=pd.cut(df.height,[-1,0,5,10,15,1000])
    df['categories']=(df.groups!=df.groups.shift()).cumsum()
    f = {'start':['first'],'end':['last'], 'groups':['first']}
    return df.groupby('categories').agg(f)

def b(d):
    bins = [-1,0,1,5,10,15,100]
    cut_ser = pd.cut(d['height'], bins=bins)
    return d.groupby([(cut_ser.shift() != cut_ser).cumsum(), cut_ser]).agg({'start' : 'first','end' : 'last'}).reset_index(level=1).reset_index(drop=True).rename(columns={'height':'height_grouped'})


print a(df)    
print b(d)

- jezrael

谢谢。看起来这是与B.M.类似的解决方案。两者都似乎能达到目的。 - Moshe Einhorn

是的，看起来相似，但我的解决方案快了1.6倍。 - jezrael

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- B. M. · Accepted Answer

一个实现该目标的方法：

df = pd.DataFrame([[1,3,10], [4,10,7], [11,17,6], [18,26, 12],
[27,30, 15], [31,40,6], [41, 42, 6]], columns=['start','end', 'height'])

使用cut命令进行分组：

df['groups']=pd.cut(df.height,[-1,0,5,10,15,1000])

寻找断点：

df['categories']=(df.groups!=df.groups.shift()).cumsum()

那么 df 是：

"""
   start  end  height    groups  categories
0      1    3      10   (5, 10]           0
1      4   10       7   (5, 10]           0
2     11   17       6   (5, 10]           0
3     18   26      12  (10, 15]           1
4     27   30      15  (10, 15]           1
5     31   40       6   (5, 10]           2
6     41   42       6   (5, 10]           2
"""

定义有趣的数据：

f = {'start':['first'],'end':['last'], 'groups':['first']}

使用 groupby.agg 函数：

df.groupby('categories').agg(f)
"""
              groups  end start
               first last first
categories                     
0            (5, 10]   17     1
1           (10, 15]   30    18
2            (5, 10]   42    31
"""