如何在data.table中计算加权平均数的偏差?

5

我希望能够在data.table中为多个变量计算(加权)平均值的偏差。

我们以这个数据集为例:

mydt <- data.table(
    id = c(1, 2, 2, 3, 3, 3),
    x = 1:6,
    y = 6:1,
    w = rep(1:2, 3)
)

mydt
   id x y w
1:  1 1 6 1
2:  2 2 5 2
3:  2 3 4 1
4:  3 4 3 2
5:  3 5 2 1
6:  3 6 1 2

我可以按照以下方法计算xy的加权平均值:

mydt[
    ,
    lapply(
        as.list(.SD)[c("x", "y")], 
        weighted.mean, w = w
    ),
    by = id
]

(因为这个bug),我使用相对复杂的as.list(.SD)[...]结构而不是.SDcols。)

我尝试首先为每行创建平均值,但没有找到如何将:=lapply()组合的方法。

1个回答

3
只需稍微调整加权平均计算方法即可:
mydt[
    ,
    lapply(
        .SD[, .(x, y)], 
        function(var) var - weighted.mean(var, w = w)
    ),
    by = id
]

   id       x       y
1:  1  0.0000  0.0000
2:  2 -0.3333  0.3333
3:  2  0.6667 -0.6667
4:  3 -1.0000  1.0000
5:  3  0.0000  0.0000
6:  3  1.0000 -1.0000

解决方案已通过@DavidArenburg提出的符号简化建议进行更新。

@DavidArenburg 谢谢。确实更简单了,但也失去了原始变量名称,你得到的是 V1V2 而不是 xy - janosdivenyi
1
Then .SD[, .(x, y)] ? - David Arenburg
1
为了更方便的编程使用,您可以始终提供列名的字符向量以保留:.SD[, c("x","y"), with=FALSE] - jangorecki

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接