在R中,如何按组添加最大值?

5

我想使用R在我的数据集中创建一个新列,其中包括每个唯一组的最大值。我的数据如下:

group<-c("A","A","A","A","A","B","B","C","C","C")
replicate<-c(1,2,3,4,5,1,2,1,2,3)
x<-data.frame(cbind(group,replicate))

我想创建以下所示的第三列 - 每个组的最大值。
group   replicate max.per.group
A       1         5       
A       2         5
A       3         5
A       4         5
A       5         5
B       1         2
B       2         2
C       1         3
C       2         3
C       3         3

@akrun 这个使用了平均值,而这个则使用了最大值:http://stackoverflow.com/questions/35617665/add-max-value-to-a-new-column-in-r (也被标记为重复问题,但其目标问题的标题有误。)或者这个:http://stackoverflow.com/q/12379043/,虽然其中包含了包标签。 - Frank
@Frank,我认为旧问题不应该被标记为新问题的重复。相反,应该是新问题重复了旧问题。 - Ronak Shah
@Frank 看起来那个更适合作为重复目标,但我不会将其关闭,因为它是较新的一个。 - akrun
@RonakShah 我基本上同意,但如果较新的问题有更好的答案,那么我认为可以考虑将较旧的问题视为重复,以便人们指向最佳答案。 - pattivacek
7个回答

6
如果你先重新定义xcbind使得两列都是因子),
x<-data.frame(group,replicate)

你可以使用这个:

merge(x,aggregate(replicate~group,x,FUN=max),all.x=TRUE,by="group")
   group replicate.x replicate.y
1      A           1           5
2      A           2           5
3      A           3           5
4      A           4           5
5      A           5           5
6      B           1           2
7      B           2           2
8      C           1           3
9      C           2           3
10     C           3           3

3

尝试

# This is how you create your data.frame
group<-c("A","A","A","A","A","B","B","C","C","C")
replicate<-c(1,2,3,4,5,1,2,1,2,3)
x<-data.frame(group,replicate) # here you don't need c()

# Here's my solution    
Max <- tapply(x$replicate, x$group,max)
data.frame(x, max.per.group=rep(Max, table(x$group)))
 group replicate max.per.group
1      A         1             5
2      A         2             5
3      A         3             5
4      A         4             5
5      A         5             5
6      B         1             2
7      B         2             2
8      C         1             3
9      C         2             3
10     C         3             3

3

这里是另一种基于R语言的解决方案:

cbind(x, cummax=unlist(tapply(x$replicate, x$group, function(x) rep(max(x), length(x)))))
   group replicate cummax
A1     A         1      5
A2     A         2      5
A3     A         3      5
A4     A         4      5
A5     A         5      5
B1     B         1      2
B2     B         2      2
C1     C         1      3
C2     C         2      3
C3     C         3      3

3

共享的可重复示例表明您将列视为因子。首先需要将它们转换为数字。

我们可以尝试使用基本R中的ave函数。在每个组中找到最大值。

x$max.per.group <- ave(x$replicate, x$group, FUN = function(x) max(as.numeric(x)))

#   group replicate max.per.group
#1      A         1             5
#2      A         2             5
#3      A         3             5
#4      A         4             5
#5      A         5             5
#6      B         1             2
#7      B         2             2
#8      C         1             3
#9      C         2             3
#10     C         3             3

dplyr 的另一种选项:

library(dplyr)
x %>%
   group_by(group) %>%
   mutate(max.per.group = max(as.numeric(replicate)))

2
你可以使用plyr包:
library(plyr)
> ddply(x, .(group), transform, max.per.group=max(replicate))
   group replicate max.per.group
1      A         1             5
2      A         2             5
3      A         3             5
4      A         4             5
5      A         5             5
6      B         1             2
7      B         2             2
8      C         1             3
9      C         2             3
10     C         3             3
> 

1

您可以使用 RLE - Run Length Encoding

# Create the data.frame
group <- c("A","A","A","A","A","B","B","C","C","C")
replicate <- c(1,2,3,4,5,1,2,1,2,3)
x <- data.frame(group,replicate)

# using 'rle'
z <- rle(as.numeric(x$group))$lengths
x$max.per.group <- rep(z, z)
x

这假设replicate从每个组的1开始,并且对于每个后续条目递增1。这个假设对于示例(以及更一般的问题)是正确的,但不需要,并且其他一些答案并不假设它。 - Brian Diggs

0
我们可以使用 data.table 的赋值 (:=) 在原地创建一个列,而无需复制。
library(data.table)
setDT(x)[, max.per.group := max(replicate), by = group]
x
#     group replicate max.per.group
#1:     A         1             5
#2:     A         2             5
#3:     A         3             5
#4:     A         4             5
#5:     A         5             5
#6:     B         1             2
#7:     B         2             2
#8:     C         1             3
#9:     C         2             3
#10:    C         3             3

数据

x <- data.frame(group,replicate)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接