滞后函数返回NA值

Question

滞后函数返回NA值

4

有人能解释一下使用 dplyr 包得到这样的结果吗？

我有一个数据框 df

    library(dplyr)
    df = data_frame(
      'id' = c(1,2,2,2,2,3,3,3,3),
      'start' = c(881, 1611, 1611, 1642, 1764, 0, 0, 28, 59),
      'end' = c(1089, 1819, 1819, 1850, 1972, 208,  208,236, 267))

那看起来像是：

    # Source: local data frame [9 x 3]
    #
    # id start   end
    # (dbl) (dbl) (dbl)
    # 1     1   881  1089
    # 2     2  1611  1819
    # 3     2  1611  1819
    # 4     2  1642  1850
    # 5     2  1764  1972
    # 6     3     0   208
    # 7     3     0   208
    # 8     3    28   236
    # 9     3    59   267

通过按id分组并在结束列应用滞后，我期望每个id都会有一个缺失值。

    df %>% 
      group_by(id) %>%
      mutate(end.prev = lag(end))

但我有

    # Source: local data frame [9 x 4]
    # Groups: id [3]
    # 
    # id start   end end.prev
    # (dbl) (dbl) (dbl)    (dbl)
    # 1     1   881  1089       NA
    # 2     2  1611  1819       NA
    # 3     2  1611  1819     1819
    # 4     2  1642  1850     1819
    # 5     2  1764  1972     1850
    # 6     3     0   208       NA
    # 7     3     0   208       NA  <- I don't understant this NA
    # 8     3    28   236       NA  <- Neither this one
    # 9     3    59   267       NA  <- nor this other

我正在使用cran中最新版本的dplyr 0.4.3（我的R版本为3.2.5）

- marc1s

1

无法在 R 3.3.0 和 dplyr_0.4.3.9001 中重现该问题。建议更新 R 版本并检查是否有效。 - akrun

1

我可以使用R 3.3.0和dplyr 0.4.3来重现它。 - J_F

1

是的，谢谢@akrun，使用最新的Github版本完美运行！ - marc1s

最近进行了一些“考古学”研究：https://github.com/hadley/dplyr/issues/1540 - Vincent Bonhomme

我在最近使用这个例子 http://stackoverflow.com/questions/37710520/r-differences-by-group-and-adding/37715856#37715856 时遇到了问题。如果我们在 dplyr 中使用 lag，它会显示 NA。 - akrun

2个回答

0

我正在使用版本为dplyr 1.0.5，它似乎可以正常工作。如果版本不重要，那么可能只需要将您的dplyr升级到最新版本。

library(tidyverse)
df = tibble(
  'id' = c(1,2,2,2,2,3,3,3,3),
  'start' = c(881, 1611, 1611, 1642, 1764, 0, 0, 28, 59),
  'end' = c(1089, 1819, 1819, 1850, 1972, 208,  208,236, 267))

df %>% 
  group_by(id) %>%
  mutate(end.prev = lag(end))
#> # A tibble: 9 x 4
#> # Groups:   id [3]
#>      id start   end end.prev
#>   <dbl> <dbl> <dbl>    <dbl>
#> 1     1   881  1089       NA
#> 2     2  1611  1819       NA
#> 3     2  1611  1819     1819
#> 4     2  1642  1850     1819
#> 5     2  1764  1972     1850
#> 6     3     0   208       NA
#> 7     3     0   208      208
#> 8     3    28   236      208
#> 9     3    59   267      236

^{本文档由reprex package (v2.0.0)于2021-04-16创建}

- cropgen

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Herr Student · Accepted Answer

随着时间的推移，出现了多个与此相关的问题，首先是在环境重新加载后，可能会出现来自统计学中被覆盖的lag()函数的问题。因此，有时必须明确使用dplyr::lag()。

但是这里的一般问题是group_by()。在对tbl进行ungroup()之后应该解决了这个问题。