在plyr或dplyr中调试 - 查看哪个组

Question

在plyr或dplyr中调试 - 查看哪个组

6

当我使用 plyr 和 dplyr 分析按 ID 分组的大规模数据集时，有时我的函数会出现错误。我可以使用 browser() 或 debugger() 探索问题所在，但一个问题是我不知道问题是出现在第一个 ID 还是第100个 ID 上。我可以使用调试器让程序停止在错误处，但是否有一种简单方法可以查看哪个 ID 导致了问题，而不仅仅是为了调试目的将 ID 包含为函数输入？下面的示例说明这个问题。

meanerr = function(y) {
  m = mean(y)
  stopifnot(!is.na(m))
  return(m)
}

d = data.frame(id=c(1,1,1,1,2,2),y=c(1,2,3,4,5,NA))
dsumm = ddply(d,"id",summarise,mean=meanerr(y))

当然，这会导致下面的错误，当我查看转储时，我不知道该看哪里（见下文）。

> options(error=dump.frames)
> source('~/svn/pgm/test_debug_ddply.R')
Error: !is.na(m) is not TRUE
> debugger()
Message:  Error: !is.na(m) is not TRUE
Available environments had calls:
1: source("~/svn/pgm/test_debug_ddply.R")
2: withVisible(eval(ei, envir))
3: eval(ei, envir)
4: eval(expr, envir, enclos)
5: test_debug_ddply.R#9: ddply(d, "id", summarise, mean = meanerr(y))
6: ldply(.data = pieces, .fun = .fun, ..., .progress = .progress, .inform = .inform, .parallel = .
7: llply(.data = .data, .fun = .fun, ..., .progress = .progress, .inform = .inform, .parallel = .p
8: loop_apply(n, do.ply)
9: (function (i) 
{
    piece <- pieces[[i]]
    if (.inform) {
        res <- try(.fun(piece, ...))

10: .fun(piece, ...)
11: eval(cols[[col]], .data, parent.frame())
12: eval(expr, envir, enclos)
13: meanerr(y)
14: test_debug_ddply.R#3: stopifnot(!is.na(m))
15: stop(sprintf(ngettext(length(r), "%s is not TRUE", "%s are not all TRUE"), ch), call. = FALSE,

无论如何，每次都将id作为输入包含在内以便于调试可能是最简单的方法，但我想知道是否有更加优雅的方式，专业人士使用时不需要传递额外的变量。

安迪

- Andy Stein

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- avoorman · Accepted Answer

我经常在使用dplyr的group_by()时遇到这个问题。我遇到了使用我通常的options(error=recover)时出现的问题。

我发现将有问题的函数用tryCatch()包裹起来可以解决问题：

> dsumm = ddply(d,"id",summarise,mean=tryCatch(meanerr(y),error=function(e){"error"}))
> dsumm
  id   mean
1  1    2.5
2  2  error