使用dplyr的do函数执行自助法复制

Question

使用dplyr的do函数执行自助法复制

10

我有兴趣使用dplyr构建自助法复制（重复分析，在每次分析前将数据进行替换抽样）。Hadley Wickham在这里提供了一些有效地重复自助法分析的代码：

bootstrap <- function(df, m) {
  n <- nrow(df)

  attr(df, "indices") <- replicate(m, sample(n, replace = TRUE), 
    simplify = FALSE)
  attr(df, "drop") <- TRUE
  attr(df, "group_sizes") <- rep(n, m)
  attr(df, "biggest_group_size") <- n
  attr(df, "labels") <- data.frame(replicate = 1:m)
  attr(df, "vars") <- list(quote(boot)) # list(substitute(bootstrap(m)))
  class(df) <- c("grouped_df", "tbl_df", "tbl", "data.frame")

  df
}

library(dplyr)
mboot <- bootstrap(mtcars, 10)

# Works
mboot %.% summarise(mean(cyl))

虽然这个函数对于summarise很有效，但当do包含一个数据框时，它对于do并不起作用。（想象一下数据框包含一些有用的东西，比如我们希望进行自助法分析的结果）。

bootstrap(mtcars, 3) %>% do(data.frame(x=1:2))
# Error: index out of bounds

有了回溯信息

11: stop(list(message = "index out of bounds", call = NULL, cppstack = NULL))
10: .Call("dplyr_grouped_df_impl", PACKAGE = "dplyr", data, symbols, 
        drop)
9: grouped_df_impl(data, unname(vars), drop)
8: grouped_df(cbind_list(labels, out), groups)
7: label_output_dataframe(labels, out, groups(.data))
6: do.grouped_df(`bootstrap(mtcars, 3)`, data.frame(x = 1:2))
5: do(`bootstrap(mtcars, 3)`, data.frame(x = 1:2))
4: eval(expr, envir, enclos)
3: eval(e, env)
2: withVisible(eval(e, env))
1: bootstrap(mtcars, 3) %>% do(data.frame(x = 1:2))

我通过执行两个do步骤和分组操作来解决了这个问题：

bootstrap(mtcars, 10) %>% do(d=data.frame(x=1:2)) %>% group_by(replicate) %>% do(.$d[[1]])

但是这似乎需要很多额外的步骤，并且有些笨拙（还会收到警告：分组行数据框剥离行向性质）。我也意识到，我可以首先使用类似以下的方法将数据复制十次：

data.frame(boot=1:10) %>% group_by(boot) %>% do(sample_n(mtcars, nrow(mtcars), replace=TRUE))

但是，如果数据或bootstrap复制品的数量很大，那么内存效率非常低。

有没有办法通过更改bootstrap设置函数来执行这些复制品：bootstrap(mtcars, 3) %>% do(data.frame(x = 1:2))？

- David Robinson

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- nograpes · Accepted Answer

我认为这是 bootstrap 函数中的一个小错误。在 labels 属性中，vars 属性应该与 data.frame 中的列名匹配。但是在函数中，vars 属性被称为 "boot"，而列名为 replicate。因此，如果您进行这个小改变：

bootstrap <- function(df, m) {
  n <- nrow(df)

  attr(df, "indices") <- replicate(m, sample(n, replace = TRUE), 
                                   simplify = FALSE)
  attr(df, "drop") <- TRUE
  attr(df, "group_sizes") <- rep(n, m)
  attr(df, "biggest_group_size") <- n
  attr(df, "labels") <- data.frame(replicate = 1:m)
  attr(df, "vars") <- list(quote(replicate)) # Change
#  attr(df, "vars") <- list(quote(boot)) # list(substitute(bootstrap(m)))
  class(df) <- c("grouped_df", "tbl_df", "tbl", "data.frame")

  df
}

然后它按预期工作：

bootstrap(mtcars, 3) %>% do(data.frame(x=1:2))
# Source: local data frame [6 x 2]
# Groups: replicate

#   replicate x
# 1         1 1
# 2         1 2
# 3         2 1
# 4         2 2
# 5         3 1
# 6         3 2