使用tidyr::complete和group_by函数

Question

使用tidyr::complete和group_by函数

5

有人知道 tidyr::complete() 是否支持通过 group_by() 进行分组吗？

准确来说，我有一个类似这样的数据框：

df <- data.frame(
  "ID"   = rep(1:2, each = 2),
  "Col1" = c("A", NA, "AA", NA),
  "Col2" = c("B", "C", "BB", "CC"))

现在我想使用complete()和group_by()函数来计算每个组内所有可能的组合！

df %>% 
 group_by(ID) %>% 
 complete(Col1, Col2)

  Error in .Call("dplyr_left_join_impl", PACKAGE = "dplyr", x, y, by_x,  : 
  negative length vectors are not allowed

这会导致一个错误。然而，使用没有分组的complete()是可行的，但那不是我想要的。

df %>% 
 complete(Col1, Col2)

问题：

我做错了什么，还是complete（）在group_by中不起作用？
如果是这样，我该怎么做（最好不使用循环）？

- Manuel R

1

尝试使用 library(data.table);setDT(df)[,CJ(Col1, Col2, unique=TRUE), by = ID] - akrun

3个回答

2

我想告诉大家，使用开发版本的tidyr（截至2016年1月13日为止的0.3.1.9000版本），所有tidyr动词现在都支持分组，因此不再需要使用dplyr::do来解决。一旦这个版本在CRAN上可用，我将编辑我的答案。

- Manuel R

2

我们可以使用data.table来实现这一点。将 'data.frame' 转换为 'data.table' (setDT(df))，然后通过 'ID' 进行分组，对 'Col1' 和 'Col2' 的unique元素进行交叉连接 (CJ)。

library(data.table)#v1.9.6+
setDT(df)[,CJ(Col1, Col2, unique=TRUE), by = ID]
#   ID V1 V2
#1:  1 NA  B
#2:  1 NA  C
#3:  1  A  B
#4:  1  A  C
#5:  2 NA BB
#6:  2 NA CC
#7:  2 AA BB
#8:  2 AA CC

- akrun

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- shadow · Accepted Answer

您可以使用complete和group_by来完成，但是必须使用do语句：

df %>% 
 group_by(ID) %>% 
 do(complete(., Col1, Col2, fill = list(ID = .$ID)))