我还不太熟悉
考虑以下
我想要实现的是,通过对每一个权重变量
我可以将其分别应用于每个变量,例如:
然而,在实际的data.table中,我需要为更多列计算加权平均值(以及使用更多权重),一个一个地计算会相当麻烦。我想象中的是一个函数,其中对于每个变量(AVGVALUE1、AVGVALUE2等),都使用每个权重变量(WGT1、WGT2、WGT3等)计算平均值,并将计算出加权平均值的每个变量的输出添加到列表中。我猜测列表可能是最好的选择,因为如果所有估计值都在同一个输出中,列数可能会无限增加。所以大概就是这样:
data.table
。我的问题类似于这个和这个。区别在于,我想按组计算多个变量的加权平均值,但对于每个平均值,使用多个权重。考虑以下
data.table
(实际数据集要大得多):library(data.table)
set.seed(123456)
mydata <- data.table(CLID = rep("CNK", 10),
ITNUM = rep(c("First", "Second", "First", "First", "Second"), 2),
SATS = rep(c("Always", "Amost always", "Sometimes", "Never", "Always"), 2),
ASSETS = rep(c("0-10", "11-25", "26-100", "101-200", "MORE THAN 200"), 2),
AVGVALUE1 = rnorm(10, 10, 2),
AVGVALUE2 = rnorm(10, 10, 2),
WGT1 = rnorm(10, 3, 1),
WGT2 = rnorm(10, 3, 1),
WGT3 = rnorm(10, 3, 1))
#I set the key of the table to the variables I want to group by,
#so the output is sorted
setkeyv(mydata, c("CLID", "ITNUM", "SATS", "ASSETS"))
我想要实现的是,通过对每一个权重变量
WGT1
、WGT2
和WGT3
(或更多变量)进行分组计算,对于ITNUM
、SATS
和ASSETS
定义的组,计算AVGVALUE1
和AVGVALUE2
(以及可能的其他变量)的加权平均值。因此,对于每个变量,我想要按组计算三个加权平均值(或任何权重数)。我可以将其分别应用于每个变量,例如:
all.weights <- c("WGT1", "WGT2", "WGT3")
avg.var <- "AVGVALUE1"
split.vars <- c("ITNUM", "SATS", "ASSETS")
mydata[ , Map(f = weighted.mean, x = .(get(avg.var)), w = mget(all.weights),
na.rm = TRUE), by = c(key(mydata)[1], split.vars)]
我在by
中添加了第一个关键变量,尽管它是一个常数,因为我希望它成为输出中的一列。 我得到:
CLID ITNUM SATS ASSETS V1 V2 V3
1: CNK First Always 0-10 11.66824 11.66819 11.66829
2: CNK First Never 101-200 11.37378 12.21008 11.60182
3: CNK First Sometimes 26-100 12.43004 13.13450 12.01330
4: CNK Second Always MORE THAN 200 12.32265 11.81613 12.56786
5: CNK Second Amost always 11-25 10.76556 11.34669 10.52458
然而,在实际的data.table中,我需要为更多列计算加权平均值(以及使用更多权重),一个一个地计算会相当麻烦。我想象中的是一个函数,其中对于每个变量(AVGVALUE1、AVGVALUE2等),都使用每个权重变量(WGT1、WGT2、WGT3等)计算平均值,并将计算出加权平均值的每个变量的输出添加到列表中。我猜测列表可能是最好的选择,因为如果所有估计值都在同一个输出中,列数可能会无限增加。所以大概就是这样:
[[1]]
CLID ITNUM SATS ASSETS V1 V2 V3
1: CNK First Always 0-10 11.66824 11.66819 11.66829
2: CNK First Never 101-200 11.37378 12.21008 11.60182
3: CNK First Sometimes 26-100 12.43004 13.13450 12.01330
4: CNK Second Always MORE THAN 200 12.32265 11.81613 12.56786
5: CNK Second Amost always 11-25 10.76556 11.34669 10.52458
[[2]]
CLID ITNUM SATS ASSETS V1 V2 V3
1: CNK First Always 0-10 9.132899 9.060045 9.197005
2: CNK First Never 101-200 12.896584 13.278680 13.000772
3: CNK First Sometimes 26-100 10.972260 11.215390 10.828431
4: CNK Second Always MORE THAN 200 11.704404 11.611072 11.749586
5: CNK Second Amost always 11-25 8.086409 8.225030 8.028928
我尝试过的:
Using
lapply
all.weights <- c("WGT1", "WGT2", "WGT3") avg.vars <- c("AVGVALUE1", "AVGVALUE2") split.vars <- c("ITNUM", "SATS", "ASSETS") lapply(mydata, function(i) { mydata[ , Map(f = weighted.mean, x = mget(avg.vars)[i], w = mget(all.weights), na.rm = TRUE), by = c(key(mydata)[1], split.vars)] }) Error in weighted.mean.default(x = dots[[1L]][[1L]], w = dots[[2L]][[1L]], : 'x' and 'w' must have the same length
Using
mapply
myfun <- function(data, spl.v, avg.v, wgts) { data[ , Map(f = weighted.mean, x = mget(avg.v), w = mget(all.weights), na.rm = TRUE), by = c(key(data)[1], spl.v)] } mapply(FUN = myfun, data = mydata, spl.v = split.vars, avg.v = avg.vars, wgts = all.weights) Error: value for ‘AVGVALUE2’ not found
我尝试将mget(avg.v)
包装成列表形式 - .(mget(avg.v))
,但是却遇到了另一个错误:
Error in mapply(FUN = f, ..., SIMPLIFY = FALSE) :
could not find function "."
有人能帮忙吗?
lapply
(我更喜欢这个)和for
循环的解决方案中都存在问题。如果您向mydata
添加另一列以计算平均值(例如CRMVAR = rnorm(10, 10, 2)
),然后将其添加到avg.vars
(avg.vars <- c("AVGVALUE1", "AVGVALUE2", "CRMVAR")
)中,该函数将返回所需的3个组件的列表。但是前两个组件的值将与上面的输出不同。因此,输出将取决于您尝试计算平均值的列数。在这种情况下,似乎lapply
在内部出了些问题。如何解决? - panmanCRMVAR
)添加到mydt
中,尽管我使用了相同的种子,但其余变量的值发生了变化(我在Linux中使用R 3.3.1),但我正在将这些值与我已经发布的示例输出进行比较。一切都没问题,对于造成的混淆我感到抱歉。 - panman