用列表列对融合的data.table进行R重塑

7
我有一个拥有数百万行数据的大型(大量使用melt方法展开到variablevalue列中)的融合data.table。我需要将这个表格转换成宽格式(将变量展开)。问题在于,该数据表还具有名为data的列表列,我需要保留它。这使得使用reshape2成为不可能,因为dcast无法处理非原子列。因此,我需要自己进行展开操作。
由于存在列表列,因此之前关于处理融合数据表的问题的回答并不适用。我对自己找到的解决方案不满意,希望能得到更简单/更快的实现建议。
x <- LETTERS[1:3]
dt <- data.table(
  x=rep(x, each=2),
  y='d',
  data=list(list(), list(), list(), list(), list(), list()),
  variable=rep(c('var.1', 'var.2'), 3),
  value=seq(1,6)
  )

# Column template set up
list_template <- Reduce(
  function(l, col) { l[[col]] <- col; l }, 
  unique(dt$variable),
  list())

# Expression set up
q <- substitute({
  l <- lapply(
    list_template, 
    function(col) .SD[variable==as.character(col)]$value)
  l$data = .SD[1,]$data
  l
}, list(list_template=list_template))

# Roll up
dt[, eval(q), by=list(x, y)]

   x y var.1 var.2   data
1: A d     1     2 <list>
2: B d     3     4 <list>
3: C d     5     6 <list>

2
@Arun完成了;我在简化代码和创建可重现的示例时发布了这条消息。 - Sim
2个回答

2

这个老问题引起了我的好奇心,因为自2013年以来,data.table已经显着改进。

然而,即使使用data.table的1.11.4版本

dcast(dt, x + y + data ~ variable)

仍然返回错误

在公式中指定的列不能是列表类型

解决方法遵循jonsedar的答案的一般概述:

  1. 将非列表列从长格式转换为宽格式
  2. xy分组聚合列表列data
  3. xy上联接两个部分结果

但使用实际data.table语法的特性,例如on参数:

dcast(dt, x + y ~ variable)[
  dt[, .(data = .(first(data))), by = .(x, y)], on = .(x, y)] 
   x y var.1 var.2   data
1: A d     1     2 <list>
2: B d     3     4 <list>
3: C d     5     6 <list>
列表列data按照取第一个元素的方法聚合。这与OP代码行相符。
l$data = .SD[1,]$data

这也会选择第一个元素。


或者(本质上相同)... xdt = dt[, .SD[1L], by=.(x, y), .SDcols="data"]; mdt = dt[, .(x, variable, value)]; merge(xdt, dcast(mdt, x ~ variable), by="x")(我认为OP的输入和输出表格都格式不正确,他们应该将其拆分成多个表格。) - Frank

1

我有一个可能起到作用的有点作弊的方法 - 重要的是,我假设每个 x、y、list 组合是唯一的!如果不是,请忽略此方法。

我将创建两个单独的数据表,第一个将进行 dcast 转换而不包括数据列表对象,第二个仅包含唯一的数据列表对象和一个键。然后将它们合并在一起以获得所需的结果。

require(data.table)
require(stringr)
require(reshape2)

x <- LETTERS[1:3]
dt <- data.table(
  x=rep(x, each=2),
  y='d',
  data=list(list("a","b"), list("c","d")),
  variable=rep(c('var.1', 'var.2'), 3),
  value=seq(1,6)
  )


# First create the dcasted datatable without the pesky list objects:
dt_nolist <- dt[,list(x,y,variable,value)]
dt_dcast <- data.table(dcast(dt_nolist,x+y~variable,value.var="value")
                       ,key=c("x","y"))


# Second: create a datatable with only unique "groups" of x,y, list
dt_list <- dt[,list(x,y,data)]

# Rows are duplicated so I'd like to use unique() to get rid of them, but
# unique() doesn't work when there's list objects in the data.table.
# Instead so I cheat by applying a value to each row within an x,y "group" 
# that is unique within EACH group, but present within EVERY group.
# Then just simply subselect based on that unique value.
# I've chosen rank(), but no doubt there's other options

dt_list <- dt_list[,rank:=rank(str_c(x,y),ties.method="first"),by=str_c(x,y)]

# now keep only one row per x,y "group"
dt_list <- dt_list[rank==1]
setkeyv(dt_list,c("x","y"))

# drop the rank since we no longer need it
dt_list[,rank:=NULL]

# Finally just merge back together
dt_final <- merge(dt_dcast,dt_list)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接