如何使用dplyr对不匹配组的值进行总结

4

我想对不属于同一组的行的值进行求和。例如,使用以下示例数据:

> df <- data.frame(id=1:5, group=c("A", "A", "B", "B", "A"), val=seq(9, 1, -2))
> df
  id group val
1  1     A   9
2  2     A   7
3  3     B   5
4  4     B   3
5  5     A   1

使用dplyr按组进行汇总

> df %>% group_by(group) %>% summarize(sumval = sum(val))
Source: local data frame [2 x 2]

   group sumval
  (fctr)  (dbl)
1      A     17
2      B      8

我想得到属于A组的行所使用的非A组sumval的值。即最终结果为:
  id group val notval
1  1     A   9      8
2  2     A   7      8
3  3     B   5     17
4  4     B   3     17
5  5     A   1      8

有没有在dplyr中完成这个操作的方法?最好是在单一链中实现?

2个回答

10

我们可以使用 base R 来完成这个任务。

 s1 <- sapply(unique(df$group), function(x) sum(df$val[df$group !=x]))
 s1[with(df, match(group, unique(group)))]
 #[1]  8  8 17 17  8

或者使用 data.table

library(data.table)
setDT(df)[,notval := sum(df$val[df$group!=group]) ,group]

9

@akrun的答案是最好的。但是如果你想用dplyr,这是一种比较间接的方法。

df <- data.frame(id=1:5, group=c("A", "A", "B", "B", "A"), val=seq(9, 1, -2))



    df %>% mutate(TotalSum = sum(val)) %>% group_by(group) %>%
 mutate(valsumval = TotalSum - sum(val))

Source: local data frame [5 x 5]
Groups: group [2]

         id  group   val TotalSum valsumval
      (int) (fctr) (dbl)    (dbl)     (dbl)
    1     1      A     9       25         8
    2     2      A     7       25         8
    3     3      B     5       25        17
    4     4      B     3       25        17
    5     5      A     1       25         8

即使有两个以上的分组,这也适用。

只需这样就可以了

df %>% group_by(group) %>% mutate(notval = sum(df$val)- sum(val))

1
我认为你不需要创建 TotalSum,即df%>% 按组分组%>% mutate(notval = sum(df%>% val)- sum(val)) - akrun

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接