如何在R中按分组列求和?

3

这是我的输入。一个包含n列的数据框,以及一个辅助数据框,将每个id分配到一个组中。

df <- data.frame(
  a1 = c(1,2,3), 
  a2 = c(2,3,4), 
  b1 = c(4,5,6), 
  b2 = c(5,6,7)
)
aux <- data.frame(
  id = c("a1", "a2", "b1", "b2"),
  group = c("a", "a", "b", "b")
)

有什么通用的方法可以得到这个输出吗?(a1 + a2和b1 + b2的总和)

desired_output <- data.frame(
  a = c(3,5,7),
  b = c(9,11,13)
)

我尝试使用 dplyr::group_bytidyr::unite,但还没有使其正常工作。
3个回答

4
为避免需要拆分数据帧并通过代码传递长列表的情况,您可以直接使用索引:
cols <- split(aux$id, aux$group)

data.frame(lapply(cols, function(i) rowSums(df[i])))

3
您可以尝试使用split.default,将数据框按照列名id/pattern拆分为子数据框列表,然后对每个子数据框应用rowSums函数:
# create a group variable by columns
g <- aux$group[match(names(df), aux$id)]
g
# [1] a a b b
# Levels: a b

as.data.frame(lapply(split.default(df, g), rowSums))

#  a  b
#1 3  9
#2 5 11
#3 7 13

1
当OP已经有了aux$group时,你为什么要创建g感到困惑? - Frank
3
如果 df 的列名顺序与 id 列不一致,匹配过程会重新排序它们。在 OP 的示例中,可能没有必要这样做。 - Psidom

2

这是一个相对通用的R语言方法。

# define your groups
myGroups <- c("a", "b")

# get the column positions of your groups, given aux data.frame
myCols <- lapply(unique(aux$group), function(i) which(aux$group == i))

# get the data.frame of the row sums for each colum group
dfNew <- setNames(data.frame(lapply(myGroups, function(i) rowSums(df[i]))), myGroups)

这将返回以下结果

dfNew
  a  b
1 3  9
2 5 11
3 7 13

这个答案比 @psidom 的答案稍微长一点,但是应该非常直观。在第二行中,lapplyaux 上使用 which 来查找每个组元素的列位置,并将位置返回到一个列表中。在第三行中,lapply 对每个组集应用 rowSums 并返回一个列表。该列表使用 data.frame 转换成一个数据框,并使用 setNames 给出列名。


1
grep(i, names(df)) 是危险的。最好使用给定的映射。 - Pierre L
抱歉@PierreLafortune,今天有点迟钝。什么是危险? - lmo
1
@lmo如果再考虑一个额外的组"ba",你就会陷入麻烦了。grep在这里甚至都不是必要的。在这种逻辑中,我会选择使用match(i, names(df),0) - Joris Meys
1
它狭窄地创建了一个在现实世界中很容易出问题的解决方案。如果没有其他选择,并且用例很严格,那么这样做可能还可以接受。但是OP提供了一个映射来解决歧义问题,而你的答案完全忽略了它。 - Pierre L

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接