按组计算相关矩阵

3
这是我的数据框。
df <- structure(list(g1 = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L), .Label = c("A", "C"), class = "factor"), g2 = structure(c(1L, 1L, 1L, 2L, 2L, 1L, 1L, 2L, 2L, 2L), .Label = c("a", "b"), class = "factor"), v1 = 1:10, v2 = c(5, 5, 6, 2, 4, 4, 2, 1, 9, 8), v3 = c(29, 10, 56, 93, 20, 14, 12, 87, 67, 37)), .Names = c("g1", "g2",  "v1", "v2", "v3"), row.names = c(NA, -10L), class = "data.frame")

   g1 g2 v1 v2 v3
1   A  a  1  5 29
2   A  a  2  5 10
3   A  a  3  6 56
4   A  b  4  2 93
5   A  b  5  4 20
6   C  a  6  4 14
7   C  a  7  2 12
8   C  b  8  1 87
9   C  b  9  9 67
10  C  b 10  8 37

我想为g1和g2的每个组合(Aa,Ab,Ca,Cb)创建v1、v2和v3的相关矩阵。因此,我想使用Hmisc包并与plyr结合使用。

library(Hmisc)
library(plyr)

这个可以工作(当然忽略组):

rcorr(as.matrix(df[,3:5]), type="pearson")

但这个不行:
cor.matrix <- dlply(df, .(g1,g2), rcorr(as.matrix(df[,3:5]), type="pearson"))
Error:attempt to apply non-function

我哪里做错了吗?


3
这样怎么样?by(df, INDICES = list(df$g1, df$g2), FUN = function(x) cor(x[, c("v1", "v2", "v3")])) 的意思是:按照 df 数据框中 g1g2 两列的组合,对dfv1, v2, 和 v3 这三个变量进行相关性分析(计算它们的相关系数)。 - Roman Luštrik
非常好,谢谢。然而,我想使用Hmisc中的rcorr的原因是它还生成带有p值的矩阵。我认为cor不可能做到这一点? - erc
1个回答

2

如果每个组有4个以上的观察值(这就是为什么我使用rbind将您的df与另外两个df合并的原因),则此方法有效:

df <- structure(list(g1 = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L), 
    .Label = c("A", "C"), class = "factor"), 
    g2 = structure(c(1L, 1L, 1L, 2L, 2L, 1L, 1L, 2L, 2L, 2L), 
    .Label = c("a", "b"), class = "factor"), 
    v1 = 1:10, v2 = c(5, 5, 6, 2, 4, 4, 2, 1, 9, 8), 
    v3 = c(29, 10, 56, 93, 20, 14, 12, 87, 67, 37)), 
    .Names = c("g1", "g2",  "v1", "v2", "v3"), row.names = c(NA, -10L), 
    class = "data.frame")


df <- rbind(df, df, df)

library(Hmisc)
lapply(split(df, df[, 1:2]), function(x) {
    rcorr(as.matrix(x[,3:5]), type="pearson")
})

修改 这个可行:

dlply(df, .(g1,g2), function(x) rcorr(as.matrix(x[,3:5]), type="pearson"))

完美,谢谢!不过您有没有解释为什么 dlply 不起作用?只是好奇 ;) - erc

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接