按组查找运行最大值

5

我需要使用R按组查找变量的运行最大值。使用df[order(df$group, df$time),]按组对变量按时间排序。

我的变量中有一些NA,但我可以通过将它们替换为零来处理此计算。

这就是数据框df的样子:

(df <- structure(list(var = c(5L, 2L, 3L, 4L, 0L, 3L, 6L, 4L, 8L, 4L),
               group = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L),
                                 .Label = c("a", "b"), class = "factor"),
               time = c(1L, 2L, 3L, 4L, 5L, 1L, 2L, 3L, 4L, 5L)),
          .Names = c("var", "group","time"),
          class = "data.frame", row.names = c(NA, -10L)))

#    var group time
# 1    5     a    1
# 2    2     a    2
# 3    3     a    3
# 4    4     a    4
# 5    0     a    5
# 6    3     b    1
# 7    6     b    2
# 8    4     b    3
# 9    8     b    4
# 10   4     b    5

我希望有一个名为curMax的变量:

var  |  group  |  time  |  curMax
5       a         1         5
2       a         2         5
3       a         3         5
4       a         4         5
0       a         5         5
3       b         1         3
6       b         2         6
4       b         3         6
8       b         4         8
4       b         5         8

请告诉我如果你有任何想法如何在R中实现它。


1
发现了这个问题可能是重复的。不过它的答案并不是很好:https://dev59.com/wGbWa4cB1Zd3GeqPYJSt - Frank
2个回答

8
我们可以尝试使用 data.table。将 'data.frame' 转换为 'data.table' (setDT(df1)),按 'group' 进行分组,获取 'var' 的 cummax 并将其赋值 (:=) 给一个新变量 ('curMax')。
library(data.table)
setDT(df1)[, curMax := cummax(var), by = group]

正如 @Michael Chirico 所评论的那样,如果数据没有按 'time' 排序,我们可以在 'i' 中进行排序。

setDT(df1)[order(time), curMax:=cummax(var), by = group]

或者使用 dplyr

library(dplyr)
df1 %>% 
    group_by(group) %>%
    mutate(curMax = cummax(var)) 

如果 df1tbl_sql,可能需要使用 arrange 进行明确排序。

df1 %>% 
    group_by(group) %>%
    arrange(time, .by_group=TRUE) %>%
    mutate(curMax = cummax(var)) 

或者使用dbplyr::window_order

library(dbplyr)

df1 %>% 
    group_by(group) %>%
    window_order(time) %>%
    mutate(curMax = cummax(var)) 

3
只是一个鲁棒性检查:如果不一定按照“时间”顺序排列,你可以添加setDT(df1)[order(time), curMax:=cummax(var), by = group] - MichaelChirico
这是一个非常古老的帖子。但是当我尝试使用data_table选项时,它可以正常工作。但是dplyr选项在每个新的组中没有重新开始cummax。我是不是漏掉了什么? - undefined

5
您可以这样做:
df$curMax <- ave(df$var, df$group, FUN=cummax)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接