dcast
(来自“reshape2”或“dplyr”)中的drop
参数在从“长格式”转换为“宽格式”数据集时非常有用,您希望即使在长格式中不存在的组合也创建列。
事实证明,使用drop
还会影响公式左侧(LHS)和右侧(RHS)的组合。因此,它还会基于LHS值的组合创建额外的行。
是否有一种方法可以覆盖这种行为?
这里是一些样本数据:
library(data.table)
DT <- data.table(v1 = c(1.105, 1.105, 1.105, 2.012, 2.012, 2.012),
ID = c(1L, 1L, 1L, 2L, 2L, 2L),
v2 = structure(c(2L, 3L, 5L, 1L, 2L, 6L),
.Label = c("1", "2", "3", "4", "5", "6"),
class = "factor"),
v3 = c(3L, 2L, 2L, 5L, 4L, 3L))
注意,“v2”是一个具有6个级别的factor
列。本质上,我希望从“长”变为“宽”,但要添加任何缺失的因子级别列(在本例中为“4”)。
reshape
处理形状,但不处理缺失的列:
reshape(DT, direction = "wide", idvar = c("ID", "v1"), timevar = "v2")
# v1 ID v3.2 v3.3 v3.5 v3.1 v3.6
# 1: 1.105 1 3 2 2 NA NA
# 2: 2.012 2 4 NA NA 5 3
dcast
处理添加缺失的列,但仅在LHS上有一个值时才处理:
dcast(DT, ID ~ v2, value.var = "v3", drop = FALSE)
# ID 1 2 3 4 5 6
# 1: 1 NA 3 2 NA 2 NA
# 2: 2 5 4 NA NA NA 3
如果左侧有多个值,则左侧值的组合也会被展开,就像我们使用了CJ
或 expand.grid
一样,但第2行和第3行对我来说没有任何意义:
dcast(DT, ... ~ v2, value.var = "v3", drop = FALSE)
# v1 ID 1 2 3 4 5 6
# 1: 1.105 1 NA 3 2 NA 2 NA
# 2: 1.105 2 NA NA NA NA NA NA
# 3: 2.012 1 NA NA NA NA NA NA
# 4: 2.012 2 5 4 NA NA NA 3
这类似于在基本R中使用xtabs
:ftable(xtabs(v3 ~ ID + v1 + v2, DT))
。
有没有一种方法能让dcast
知道,本质上,“嘿,LHS值的组合是ID,请不要尝试为我填充它们。”
我的当前方法是进行三个步骤,一个用于折叠LHS值,另一个用于展开RHS值,然后再进行合并。
merge(DT[, list(v1 = unique(v1)), .(ID)], ## or unique(DT[, c("ID", "v1"), with = FALSE])
dcast(DT, ID ~ v2, value.var = "v3", drop = FALSE),
by = "ID")[]
# ID v1 1 2 3 4 5 6
# 1: 1 1.105 NA 3 2 NA 2 NA
# 2: 2 2.012 5 4 NA NA NA 3
我是否错过了更好的方法?
dcast(DT, interaction(v1,ID,drop=TRUE) ~ v2, value.var = "v3", drop = FALSE)
。但是你需要在之后拆分第一列。 - nicola...
选项以及列名称丢失的情况。 - A5C1D2H2I1M1N2O1R2T1drop
中允许双逻辑。例如drop = c(TRUE, FALSE)
,其中第一个适用于 RHS,第二个适用于 LHS。 - Jaap