对于每个因子水平，在除当前水平之外的所有水平上聚合值。

Question

对于每个因子水平，在除当前水平之外的所有水平上聚合值。

3

对于每个因子水平，我需要提取除当前数据框之外的所有子集聚合值。例如，有几个学科在多天内完成反应时间任务，我需要计算所有学科和所有天数的平均反应时间，但不包括计算平均值的学科。目前，我这样做：

 library(lme4)
 ddply(sleepstudy, .(Subject, Days), summarise, 
       avg_rt = mean(sleepstudy[sleepstudy$Subject != Subject &
                   sleepstudy$Days == Days,"Reaction"]), .progress="text")

对于小数据集，它可以正常工作，但对于大数据集，速度可能非常慢。有没有更快的方法？

- Andrey Chetverikov

2个回答

0

也许使用 lapply 和 aggregate 会更快：

do.call("rbind", (lapply(unique(sleepstudy$Subject),
                         function(x)
                           cbind(Subject = x,
                                 aggregate(Reaction ~ Days,
                                           subset(sleepstudy, Subject != x),
                                           mean)))))

更新：

我使用了system.time比较了这两个命令，结果表明原始命令更慢。

library(lme4)
library(plyr)

system.time(
ddply(sleepstudy, .(Subject, Days), summarise, 
      avg_rt = mean(sleepstudy[sleepstudy$Subject != Subject &
                    sleepstudy$Days == Days,"Reaction"]))
)

   # user  system elapsed 
   # 0.17    0.00    0.22 

system.time(
do.call("rbind", (lapply(unique(sleepstudy$Subject),
                         function(x) 
                           cbind(Subject = x,
                                 aggregate(Reaction ~ Days,
                                           subset(sleepstudy, Subject != x),
                                           mean)))))
)


   # user  system elapsed 
   # 0.12    0.00    0.12

- Sven Hohenstein

对于小数据集，这比原始方法更有效，但对于大数据集，原始方法仍然更好。http://pastebin.com/Zb4CaJrN对于184320行数据，原始方法需要6.041秒，而lapply和aggregate需要10.96秒。 - Andrey Chetverikov

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Roland · Accepted Answer

#create big dataset
n <- 1e4
set.seed(1)
sleepstudy <- data.frame(Reaction=rnorm(n),Subject=1:4,Days=sort(rep((1:(n/4)),4)))


library(plyr)
system.time(
  res <- ddply(sleepstudy, .(Subject, Days), summarise, 
               avg_rt = mean(sleepstudy[sleepstudy$Subject != Subject &
                 sleepstudy$Days == Days,"Reaction"]))
)
#User      System      elapsed 
#6.532       0.013       6.556  

#use data.table for big datasets
library(data.table)

dt<- as.data.table(sleepstudy)
system.time(
 {dt[,avg_rt:=mean(Reaction),by=Days];
  dt[,n:=.N,by=Days];
  dt[,avg_rt:=(avg_rt*n-Reaction)/(n-1)]}
)
#User      System      elapsed 
#0.005       0.001       0.005 


#test if results are equal
dt2 <- as.data.table(res)
setkey(dt2,Subject,Days)
setkey(dt,Subject,Days)
all.equal(dt[,avg_rt],dt2[,avg_rt])
#[1] TRUE

对于非常大的数据集，速度提升应该更为明显。我只是不能与更大的数据集进行比较，因为ddply非常慢。