在 Pandas 数据框中以选择条件高效地进行最大值选择

Question

在 Pandas 数据框中以选择条件高效地进行最大值选择

3

我有一个pandas数据框，其中包含列（除其他列外）user_id和start_time。我想高效且易于阅读地查找与每个用户的最大start_time相关联的所有行。

例如，如果这是我的数据：

user_id   start_time   A    B    C
1         37           a    b    c
1         45           d    e    f
1         45           g    h    i
2         58           j    k    l
2         17           m    n    o
2         58           p    q    r
3          2           s    t    u

那么我期望找到

user_id   start_time   A    B    C
1         45           d    e    f
1         45           g    h    i
2         58           j    k    l
2         58           p    q    r
3          2           s    t    u

我一直在想与Pandas DataFrame中数据的条件筛选类似的解决方案，但是该解决方案只能找到具有最新start time的user_id，而无法选择每个用户最大的start_time数据表。

当然，如果我手动迭代DataFrame，这很容易，但这是低效的。

感谢任何指点。

为了方便未来的读者，请按以下方式生成数据框：

columns = ['user_id', 'start_time', 'A', 'B', 'C']
LoL = [
    [1, 37, 'a', 'b', 'c'],
    [1, 45, 'd', 'e', 'f'],
    [1, 45, 'g', 'h', 'i'],
    [2, 58, 'j', 'k', 'l'],
    [2, 17, 'm', 'n', 'o'],
    [2, 58, 'p', 'q', 'r'],
    [3, 2, 's', 't', 'u']]
pd.DataFrame = (LoL, columns=columns)

- jma

我很好奇在处理大型数据框时，使用groupby()和merge()方法会比下面的其他答案表现如何。你能试一下吗？ g = df.groupby('user_id', as_index=False)['start_time'].max() df.merge(g) - Bob Haffner

2个回答

1

"或者你可以这样做："

df[df.start_time == df.groupby('user_id')['start_time'].transform(max)]

产生以下结果：

   user_id  start_time  A  B  C
1        1          45  d  e  f
2        1          45  g  h  i
3        2          58  j  k  l
5        2          58  p  q  r
6        3           2  s  t  u

- Primer

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- EdChum · Accepted Answer

您可以按照用户ID分组，然后调用apply并传递一个lambda表达式，该表达式过滤开始时间等于最大值的结果，我们想要从中生成布尔索引。然后我们可以调用reset_index，但由于分组被过滤的方式，我们会得到一个重复列的错误，所以我们必须删除这个重复的列：

In [66]:

gp = df.groupby('user_id')
gp.apply(lambda x: x[x['start_time'] == x['start_time'].max()]).reset_index(drop=True)

Out[66]:
   user_id  start_time  A  B  C
0        1          45  d  e  f
1        1          45  g  g  i
2        2          58  j  k  l
3        2          58  p  q  r
4        3           2  s  t  u

如果我们不调用reset_index，你会得到重复的值：

In [67]:

gp.apply(lambda x: x[x['start_time'] == x['start_time'].max()])
Out[67]:
           user_id  start_time  A  B  C
user_id                                
1       1        1          45  d  e  f
        2        1          45  g  g  i
2       3        2          58  j  k  l
        5        2          58  p  q  r
3       6        3           2  s  t  u

内部的布尔条件会在多重索引上产生一个布尔掩码，然后需要将其传递给 lambda 表达式以产生上述结果：

In [68]:

gp.apply(lambda x: x['start_time'] == x['start_time'].max())
Out[68]:
user_id   
1        0    False
         1     True
         2     True
2        3     True
         4    False
         5     True
3        6     True
Name: start_time, dtype: bool