使用purrr映射dplyr :: select函数

9

我有一个数据框,其中包含许多嵌套的子数据框,我想对每个嵌套的子数据框应用dplyr::select函数。以下是一个示例:

 library(tidyverse)

 mtcars %>%
 group_by(cyl) %>%
 nest %>%
 mutate(data2 = ~map(data, dplyr::select(.,-mpg)))

我认为这将导致一个有三列的数据框。 cyl: 气缸数,data: 嵌套数据,data2: 与 data 相同,除了每个元素都没有 mpg 列。

但是实际上 R 崩溃了:

 *** caught segfault ***
address 0x7ffc1e445000, cause 'memory not mapped'

Traceback:
 1: .Call(`_dplyr_mutate_impl`, df, dots)
 2: mutate_impl(.data, dots)
 3: mutate.tbl_df(., data2 = ~map(data, dplyr::select(., -mpg)))
 4: mutate(., data2 = ~map(data, dplyr::select(., -mpg)))
 5: function_list[[k]](value)
 6: withVisible(function_list[[k]](value))
 7: freduce(value, `_function_list`)
 8: `_fseq`(`_lhs`)
 9: eval(quote(`_fseq`(`_lhs`)), env, env)
10: eval(quote(`_fseq`(`_lhs`)), env, env)
11: withVisible(eval(quote(`_fseq`(`_lhs`)), env, env))
12: mtcars %>% group_by(cyl) %>% nest %>% mutate(data2 = ~map(data,     dplyr::select(., -mpg)))

Possible actions:
1: abort (with core dump, if enabled)
2: normal R exit
3: exit R without saving workspace
4: exit R saving workspace

我意识到如果在嵌套之前应用选择操作,可以得到想要的列,但这与我的实际问题不太相似。请问有人能解释一下我在这里做错了什么吗?感谢任何建议。


2
可以重新运行代码,并使用 mutate(data = map(data, function(x) dplyr::select(x, -mpg))) - Russ Hyde
1
崩溃总是需要报告的。您应该使用sessionInfo()输出描述R版本和所有软件包的版本。 - IRTFM
明白了,我也会提交一个错误报告。 - ohnoplus
3个回答

7
您需要将~map移至select;或者像@Russ一样使用注释。 当函数(在这种情况下是purrr :: map)接受公式作为参数时,使用~
mtcars %>%
    group_by(cyl) %>%
    nest %>%
    mutate(data2 = map(data, ~ select(., -mpg)))

# A tibble: 3 x 3
#    cyl data               data2            
#  <dbl> <list>             <list>           
#1     6 <tibble [7 × 10]>  <tibble [7 × 9]> 
#2     4 <tibble [11 × 10]> <tibble [11 × 9]>
#3     8 <tibble [14 × 10]> <tibble [14 × 9]>

我不明白为什么没有更多的兴趣去探索这个崩溃。我认为所有的崩溃都是“应报告的犯罪”。(我没有遇到崩溃,只看到了错误信息,但我在使用Mac且仅运行3.4.3版本。) - IRTFM
@42- 你说得对。我完全忽略了崩溃部分。我也没有遇到过崩溃,只有错误信息。 - Psidom

3
这里有两种方法:一种跳过嵌套只使用do,另一种则嵌套并使用mapunnest(data2)然后将它返回到一个常规数据框中。需要注意的一点是在第一个示例中我在select中包含了-cyl;因为否则,您就会有两个cyl,一个来自分组列,一个来自不嵌套的数据框。

除了个人喜好外,我不确定其中一种方法是否比另一种更好。

library(tidyverse)

mtcars %>%
    group_by(cyl) %>%
    do(data2 = select(., -mpg, -cyl)) %>%
    unnest(data2)
#> # A tibble: 32 x 10
#>      cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb
#>    <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
#>  1     4 108      93  3.85  2.32  18.6     1     1     4     1
#>  2     4 147.     62  3.69  3.19  20       1     0     4     2
#>  3     4 141.     95  3.92  3.15  22.9     1     0     4     2
#>  4     4  78.7    66  4.08  2.2   19.5     1     1     4     1
#>  5     4  75.7    52  4.93  1.62  18.5     1     1     4     2
#>  6     4  71.1    65  4.22  1.84  19.9     1     1     4     1
#>  7     4 120.     97  3.7   2.46  20.0     1     0     3     1
#>  8     4  79      66  4.08  1.94  18.9     1     1     4     1
#>  9     4 120.     91  4.43  2.14  16.7     0     1     5     2
#> 10     4  95.1   113  3.77  1.51  16.9     1     1     5     2
#> # ... with 22 more rows

mtcars %>%
    group_by(cyl) %>%
    nest() %>%
    mutate(data2 = map(data, function(df) select(df, -mpg))) %>%
    unnest(data2)
# same output

1
一种替代方案是将-mpg直接传递给map(),这样可以正确地将其传递给select()
mtcars %>%
  group_by(cyl) %>%
  nest %>%
  mutate(data2 = map( data, select, -mpg ))

R 3.6.1 中使用 dplyr 0.8.3 工作。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接