如何展平包含列表的R数据框？

Question

如何展平包含列表的R数据框？

15

我希望找到最好的“R方式”来展开类似这样的数据框：

  CAT    COUNT     TREAT
   A     1,2,3     Treat-a, Treat-b
   B     4,5       Treat-c,Treat-d,Treat-e

所以它将被组织成这样：

   CAT   COUNT1  COUNT2 COUNT3  TREAT1   TREAT2   TREAT3
    A    1       2      3       Treat-a  Treat-b  NA 
    B    4       5      NA      Treat-c  Treat-d  Treat-e

生成源数据帧的示例代码：

df<-data.frame(CAT=c("A","B"))
df$COUNT <-list(1:3,4:5) 
df$TREAT <-list(paste("Treat-", letters[1:2],sep=""),paste("Treat-", letters[3:5],sep=""))

我相信我需要使用rbind和unlist的组合？任何帮助将不胜感激。 - Tim

- Tim

1

你的“真实”数据有多大（性能是否成问题）？ - Heroka

2

cSplit() 函数来自 splitstackshape 包，是一个不错的选择。 - jazzurro

数据集非常小，因此性能不是问题 - 谢谢！ - Tim

@jazzurro，你看错了函数... - A5C1D2H2I1M1N2O1R2T1

@AnandaMahto，我快速浏览了一下问题，发现第二天问题问的完全是另外一件事。睡前参与SO并不好... - jazzurro

显示剩余3条评论

3个回答

10

这是在基本r中的另一种方法

df<-data.frame(CAT=c("A","B"))
df$COUNT <-list(1:3,4:5)
df$TREAT <-list(paste("Treat-", letters[1:2],sep=""),paste("Treat-", letters[3:5],sep=""))

创建一个辅助函数来完成工作。

f <- function(l) {
  if (!is.list(l)) return(l)
  do.call('rbind', lapply(l, function(x) `length<-`(x, max(lengths(l)))))
}

始终测试您的代码

f(df$TREAT)

#           [,1]      [,2]      [,3]     
# [1,] "Treat-a" "Treat-b" NA       
# [2,] "Treat-c" "Treat-d" "Treat-e"

应用它

df[] <- lapply(df, f)
df

#     CAT COUNT.1 COUNT.2 COUNT.3 TREAT.1 TREAT.2 TREAT.3
#   1   A       1       2       3 Treat-a Treat-b    <NA>
#   2   B       4       5      NA Treat-c Treat-d Treat-e

- rawr

然后，在此基础上再添加一个 do.call(data.frame, ...)。他们的 list 现在已经被“展平”为一个 matrix，但列数仍然是3。 - A5C1D2H2I1M1N2O1R2T1

4

这里有一个已删除的答案指出可以使用"splitstackshape"来实现，但是该答案使用了错误的函数。相反，应该使用listCol_w函数。不幸的是，在其当前形式下，该函数不能跨列向量化，因此您需要为每个需要展平的列嵌套调用listCol_w函数。

以下是具体步骤：

library(splitstackshape)
listCol_w(listCol_w(df, "COUNT", fill = NA), "TREAT", fill = NA)
##    CAT COUNT_fl_1 COUNT_fl_2 COUNT_fl_3 TREAT_fl_1 TREAT_fl_2 TREAT_fl_3
## 1:   A          1          2          3    Treat-a    Treat-b         NA
## 2:   B          4          5         NA    Treat-c    Treat-d    Treat-e

请注意，指定了fill = NA是因为它的默认值为fill = NA_character_，否则会将所有值强制转换为字符。

另一种选择是使用"data.table"中的transpose。这里是一个可能的实现（看起来很吓人，但使用该函数很容易）。好处是（1）您可以指定要展开的列，（2）您可以决定是否删除原始列，以及（3）速度很快。

flatten <- function(indt, cols, drop = FALSE) {
  require(data.table)
  if (!is.data.table(indt)) indt <- as.data.table(indt)
  x <- unlist(indt[, lapply(.SD, function(x) max(lengths(x))), .SDcols = cols])
  nams <- paste(rep(cols, x), sequence(x), sep = "_")
  indt[, (nams) := unlist(lapply(.SD, transpose), recursive = FALSE), .SDcols = cols]
  if (isTRUE(drop)) {
    indt[, (nams) := unlist(lapply(.SD, transpose), recursive = FALSE), 
         .SDcols = cols][, (cols) := NULL]
  }
  indt[]
}

使用方法如下：

保留原始列：

flatten(df, c("COUNT", "TREAT"))
#    CAT COUNT                   TREAT COUNT_1 COUNT_2 COUNT_3 TREAT_1 TREAT_2 TREAT_3
# 1:   A 1,2,3         Treat-a,Treat-b       1       2       3 Treat-a Treat-b      NA
# 2:   B   4,5 Treat-c,Treat-d,Treat-e       4       5      NA Treat-c Treat-d Treat-e

删除原始列：

flatten(df, c("COUNT", "TREAT"), TRUE)
#    CAT COUNT_1 COUNT_2 COUNT_3 TREAT_1 TREAT_2 TREAT_3
# 1:   A       1       2       3 Treat-a Treat-b      NA
# 2:   B       4       5      NA Treat-c Treat-d Treat-e

请参考此代码片段，以与其他提议的解决方案进行比较。

- A5C1D2H2I1M1N2O1R2T1

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Heroka · Accepted Answer

以下是使用基本R的解决方案，接受您列表中任意长度的向量，无需指定要折叠的数据框的哪些列。该解决方案的一部分是使用此答案生成的。

df2 <- do.call(cbind,lapply(df,function(x){
  #check if it is a list, otherwise just return as is
  if(is.list(x)){
    return(data.frame(t(sapply(x,'[',seq(max(sapply(x,length)))))))
  } else{
  return(x)
  }
}))

从R 3.2版本开始，可以使用lengths替代sapply(x, length)

df3 <- do.call(cbind.data.frame, lapply(df, function(x) {
  # check if it is a list, otherwise just return as is
  if (is.list(x)) {
    data.frame(t(sapply(x,'[', seq(max(lengths(x))))))
  } else {
   x
 }
}))

使用的数据：

df <- structure(list(CAT = structure(1:2, .Label = c("A", "B"), class = "factor"), 
    COUNT = list(1:3, 4:5), TREAT = list(c("Treat-a", "Treat-b"
    ), c("Treat-c", "Treat-d", "Treat-e"))), .Names = c("CAT", 
"COUNT", "TREAT"), row.names = c(NA, -2L), class = "data.frame")