数据表内分组回归和汇总统计

14
我想计算数据表中的不同组别的摘要统计信息和执行不同的回归分析,并以“宽”格式呈现结果(即每个组别一行,有多列)。我可以分多步骤完成,但似乎应该能够一次性完成。
考虑这个“示例数据”:
set.seed=46984
dt <- data.table(ID=c(rep('Frank',5),rep('Tony',5),rep('Ed',5)), y=rnorm(15), x=rnorm(15), z=rnorm(15),key="ID")
dt
#       ID          y          x            z
# 1:    Ed  0.2129400 -0.3024061  0.845335632
# 2:    Ed  0.4850342 -0.5159197 -0.087965415
# 3:    Ed  1.8917489  1.7803220  0.760465271
# 4:    Ed -0.4330460 -2.1720944  0.973812545
# 5:    Ed  0.7685060  0.7947470  1.279761200
# 6: Frank  0.4978475 -0.2906851  0.568101004
# 7: Frank  0.6323386 -0.5596599  1.537133025
# 8: Frank -0.8243218 -0.4354885  0.057818033
# 9: Frank  1.2402488  0.3229422  0.005995249
#10: Frank  0.2436210 -0.2651422  0.349532173
#11:  Tony  0.4179568  0.1418463  0.142380549
#12:  Tony  0.7036613  0.4402572  0.141237901
#13:  Tony -0.1978720 -0.9553784  0.480425820
#14:  Tony -1.7269375 -0.1881292  0.370583351
#15:  Tony  1.1064903  0.4375014 -0.798221750

假设我想按ID获取中位数、通过ID对y ~ x执行线性回归,以及通过ID对y ~ x + z执行线性回归。这里我得到了中位数:

dt.med <- dt[,list(y.med=median(y)),by=ID]
dt.med
#      ID     y.med
#1:    Ed 0.4850342
#2: Frank 0.4978475
#3:  Tony 0.4179568

感谢 @DWin 的这个答案,我在这里获取了两个由ID作为列而得到的回归系数集合:

dt.reg.1 <- dt[,as.list(coef(lm(y ~ x))), by=ID]
dt.reg.1
#      ID (Intercept)         x
#1:    Ed  0.63057884 0.5482373
#2: Frank  0.69720351 1.3813007
#3:  Tony  0.08588421 1.0179131

dt.reg.2 <- dt[,as.list(coef(lm(y ~ x + z))), by=ID]
dt.reg.2
#      ID (Intercept)         x          z
#1:    Ed   0.8262577 0.5587170 -0.2582699
#2: Frank   0.4317538 2.7221024  1.1807442
#3:  Tony   0.1494439 0.3166547 -1.2029693

现在我需要将三个结果集联接起来,并重命名列:

dt.ans <- dt.med[dt.reg.1][dt.reg.2]
setnames(dt.ans,c("ID","y.med","reg.1.c0","reg.1.c1","reg.2.c0","reg.2.c1","reg.2.c2"))

最后,这是示例的期望输出

dt.ans
#      ID     y.med   reg.1.c0  reg.1.c1  reg.2.c0  reg.2.c1   reg.2.c2
#1:    Ed 0.4850342 0.63057884 0.5482373 0.8262577 0.5587170 -0.2582699
#2: Frank 0.4978475 0.69720351 1.3813007 0.4317538 2.7221024  1.1807442
#3:  Tony 0.4179568 0.08588421 1.0179131 0.1494439 0.3166547 -1.2029693

计算三个结果、将它们连接再重命名列,这似乎效率不高。此外,我的实际表格相对较大,因此我希望确保不使用过多的系统内存。是否可能在一条"data.table"语句中完成所有操作?或者更一般地说,这是否可以更有效地完成?
我尝试了不同的方法。以下是一个失败的示例,它给出了中位数但忽略了回归系数:
dt[,as.list(median(y),coef(lm(y ~ x))), by=ID]
#      ID        V1
#1:    Ed 0.4850342
#2: Frank 0.4978475
#3:  Tony 0.4179568

你打错字了 - 应该是 set.seed(#) 而不是 set.seed=#(这将改变你所有的数字) - eddi
1个回答

17
dt[,c(y.med = median(y),
      reg.1 = as.list(coef(lm(y ~ x))),
      reg.2 = as.list(coef(lm(y ~ x + z)))), by=ID]
#      ID     y.med reg.1.(Intercept)   reg.1.x reg.2.(Intercept)      reg.2.x   reg.2.z
#1:    Ed 0.7280448        0.75977555 0.1132509        0.83322290 -0.484348116 0.7655563
#2: Frank 0.6100339       -0.07830664 0.2700846        0.04720686  0.004027939 0.7168521
#3:  Tony 0.2710623       -0.78319379 0.9166601       -0.35836990  0.622822617 0.4161102

是的,这正如我认为应该那样简单,但我很难自己找到。非常感谢您近乎即时的回复!有没有一种直接重命名系数列的方法,还是需要进行第二步操作(就像我的例子中那样)? - dnlbrky
@dnlbrky 列是由 coef(lm 生成的,所以最简单的方法就是在之后重命名它们(也许使用一两个正则表达式)。 - eddi
你如何调整这个多项式(三次)回归,以便每个ID列出所有3个术语的系数? - pyne

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接