如何计算数据框中具有相同列名的列的平均值

4

我有一个由66个变量的10299个观测数据组成的数据框。其中一些变量具有相同的列名,并且我想计算每个观测值的这些变量的平均值。

以下是一个矩阵,其列名为c(A, B, C, B, A ,C):

A B C B A C                             
1 2 3 4 5 6         
3 5 6 7 4 3                             
3 3 3 3 5 5                             
2 2 2 2 2 2

I would like to get:

A   B   C    
3   3   4.5
3.5 6   4.5
4   3   4
2   2   2

我尝试使用for循环和aggregate()命令,但是我没有得到想要的结果。

如果这个问题看起来太基础了,我很抱歉。我已经在谷歌上搜索可能的解决方案,但没有找到任何有用的信息。


也许可以通过转置并按组(组为A、B、C)聚合来实现? - erc
1
@JohnPaul:只有行名必须是唯一的。 - gagolews
d.b的回答 使用split.default是最好的选择。相关:R核心split函数背后的算法是什么? - Zheyuan Li
4个回答

8
这里有一个解决方案。
首先,让我们定义一个示例数据框(与您的示例相同)。
df <- as.data.frame(
    matrix(c(1,3,3,2,2,5,3,2,3,6,3,2,4,7,3,2,5,4,5,2,6,3,5,2),
        ncol=6,
        dimnames=list(NULL, c("A", "B", "C", "B", "A", "C"))
    )
  )

我们将在每个唯一的列名 col 上应用一个自定义函数: 它选择所有名为 col 的列,并计算 rowMeans。结果,原子向量的列表,将被强制转换为 data.frame:

res <- as.data.frame( # sapply returns a list here, so we convert it to a data.frame
    sapply(unique(names(df)), # for each unique column name
       function(col) rowMeans(df[names(df) == col]) # calculate row means
    )
  )

结果如下:
res
##     A B   C
## 1 3.0 3 4.5
## 2 3.5 6 4.5
## 3 4.0 3 4.0
## 4 2.0 2 2.0

编辑: 由于已经有很多解决方案被提出,让我们对它们进行基准测试:

set.seed(123)
df <- as.data.frame(matrix(sample(1:9, replace=TRUE, 10000*100),
   dimnames=list(NULL, sample(LETTERS[1:5], 100, replace=TRUE)), ncol=100))
library(microbenchmark)
microbenchmark(...)
## Unit: milliseconds
##                   min         lq     median         uq        max neval
## @gagolews   61.196075   65.73211   77.22533  119.42028  127.32557    10
## @joran       8.297964   10.05242   10.90564   15.25943   65.69156    10
## @Davide   5535.272680 5731.24220 5754.67006 5808.47807 5862.22628    10

至少就速度而言,明显的获胜者是 @joran 的 lapply+split+Reduce。恭喜!:-)

你的解决方案保留了行名,而joran的则删除了它们(在最后重新分配很容易,但是重新分配所花费的时间应该计入基准测试中,以保证公平性)。 (Davide的解决方案也保留了行名。) - Darren Cook

6

这个方案虽然可行,但在我看来不如gegolews的解决方案好:

x <- read.table(text = "A B C B A C                             
 1 2 3 4 5 6         
 3 5 6 7 4 3                             
 3 3 3 3 5 5                             
 2 2 2 2 2 2",header = TRUE,sep = "",check.names = FALSE)

as.data.frame(lapply(split(as.list(x),f = colnames(x)),function(x) Reduce(`+`,x) / length(x)))
##    A B   C
##1 3.0 3 4.5
##2 3.5 6 4.5
##3 4.0 3 4.0
##4 2.0 2 2.0

6

使用applytapply的结合:

t(apply(df, 1, function(x) tapply(x, colnames(df), mean)))

#        A B   C
# [1,] 3.0 3 4.5
# [2,] 3.5 6 4.5
# [3,] 4.0 3 4.0
# [4,] 2.0 2 2.0

简单而聪明。非常感谢。 - user2500444

1
你可以使用split.default将数据框按列名分组,然后使用rowMeans获取相同列名的列的平均值。
sapply(split.default(df, names(df)), rowMeans)
#       A B   C
#[1,] 3.0 3 4.5
#[2,] 3.5 6 4.5
#[3,] 4.0 3 4.0
#[4,] 2.0 2 2.0

数据

df = structure(list(A = c(1L, 3L, 3L, 2L), B = c(2L, 5L, 3L, 2L), 
    C = c(3L, 6L, 3L, 2L), B = c(4L, 7L, 3L, 2L), A = c(5L, 4L, 
    5L, 2L), C = c(6L, 3L, 5L, 2L)), .Names = c("A", "B", "C", 
"B", "A", "C"), class = "data.frame", row.names = c(NA, -4L))

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接