使用tidyverse在R中按组完成整数序列

Question

使用tidyverse在R中按组完成整数序列

4

给定一个数据集，其中包含分组变量和不完整的整数列(包含NA)，每个组的起始和结束整数各不相同，并且每个组的长度也各不相同（可能是NA）。如何通过完成序列来填充NA整数值。

下面的数据集可以作为示例：

library(dplyr)
set.seed(5112021)
dat1 <- bind_rows(data.frame(Group=1,Seq=(3:20)),
                  data.frame(Group=2,Seq=(-1:25))) %>%
  mutate(rn = rnorm(45,mean=0.5,sd=1),
         Seq = ifelse(rn < 0.4,NA,Seq)) %>% 
  select(-rn) %>% 
  group_by(Group) %>% 
  mutate(Seq = ifelse(Seq==-1,NA,Seq))

dat1
   Group Seq
1      1  NA
2      1  NA
3      1  NA
4      1   6
5      1   7
6      1   8
7      1  NA
8      1  10
9      1  11
10     1  NA
11     1  13
12     1  NA
13     1  15
14     1  NA
15     1  NA
16     1  NA
17     1  NA
18     1  20
19     2  NA
20     2   0
21     2  NA
22     2   2
23     2   3
24     2  NA
25     2   5
26     2   6
27     2   7
28     2   8
29     2  NA
30     2  10
31     2  NA
32     2  12
33     2  NA
34     2  NA
35     2  NA
36     2  16
37     2  17
38     2  NA
39     2  NA
40     2  NA
41     2  NA
42     2  22
43     2  NA
44     2  NA
45     2  NA

有一种方法可以实现这个目的，就是利用行号（因为它们是整数序列），按组计算非缺失值和行号（唯一值）之间的差，然后将该值加回到行号中。

例如:

dat2 <- dat1 %>% 
  group_by(Group) %>% 
  mutate(rn = row_number(),
         diff = mean(Seq-rn,na.rm=T)) %>% 
  mutate(New_Seq = rn+diff) %>% 
  select(-rn,-diff)

dat2
   Group Seq New_Seq
1      1  NA       3
2      1  NA       4
3      1  NA       5
4      1   6       6
5      1   7       7
6      1   8       8
7      1  NA       9
8      1  10      10
9      1  11      11
10     1  NA      12
11     1  13      13
12     1  NA      14
13     1  15      15
14     1  NA      16
15     1  NA      17
16     1  NA      18
17     1  NA      19
18     1  20      20
19     2  NA      -1
20     2   0       0
21     2  NA       1
22     2   2       2
23     2   3       3
24     2  NA       4
25     2   5       5
26     2   6       6
27     2   7       7
28     2   8       8
29     2  NA       9
30     2  10      10
31     2  NA      11
32     2  12      12
33     2  NA      13
34     2  NA      14
35     2  NA      15
36     2  16      16
37     2  17      17
38     2  NA      18
39     2  NA      19
40     2  NA      20
41     2  NA      21
42     2  22      22
43     2  NA      23
44     2  NA      24
45     2  NA      25

虽然这样做可行，但似乎不太优雅，并且对于具有许多分组变量的非常大的数据集可能会很慢。我很好奇是否有更多“Tidyverse”的方法来处理这个问题。

- Micky

tidyr中的fill、complete和nesting可能会有所帮助。数据是否总是按正确顺序排序？ - Mike

是的，数据将始终按正确顺序排序。 - Micky

2个回答

2

首先创建行号，然后取Seq和row_number的最大差值，并加到行号上：

  dat1 %>%
    group_by(Group) %>%
    mutate(rn = row_number(),
           Seq = rn + max(Seq - rn, na.rm = TRUE)) %>% 
    ungroup() %>%
    select(-rn)

输出：

  Group   Seq
   <dbl> <int>
 1     1     3
 2     1     4
 3     1     5
 4     1     6
 5     1     7
 6     1     8
 7     1     9
 8     1    10
 9     1    11
10     1    12
11     1    13
12     1    14
13     1    15
14     1    16
15     1    17
16     1    18
17     1    19
18     1    20
19     2    -1
20     2     0
21     2     1
22     2     2
23     2     3
24     2     4
25     2     5
26     2     6
27     2     7
28     2     8
29     2     9
30     2    10
31     2    11
32     2    12
33     2    13
34     2    14
35     2    15
36     2    16
37     2    17
38     2    18
39     2    19
40     2    20
# … with 5 more rows

数据：

set.seed(5112021)
dat1 <- bind_rows(data.frame(Group=1,Seq=(3:20)),
                  data.frame(Group=2,Seq=(-1:25))) %>%
  mutate(rn = rnorm(45,mean=0.5,sd=1),
         Seq = ifelse(rn < 0.4,NA,Seq)) %>% 
  select(-rn) %>% 
  group_by(Group) %>% 
  mutate(Seq = ifelse(Seq==-1,NA,Seq))

- TarJae

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- LMc · Accepted Answer

你可以尝试这样做：

df %>% 
  group_by(Group) %>%
  mutate(newseq  = seq_along(Group) + (first(na.omit(Seq)) - sum(cumall(is.na(Seq)))) - 1) %>% 
  ungroup()

或者

df %>% 
  group_by(Group) %>%
  mutate(newseq  = seq(first(na.omit(Seq)) - sum(cumall(is.na(Seq))), length.out = n())) %>%
  ungroup()

或者

df %>% 
  group_by(Group) %>%
  mutate(newseq  = 0:(n() - 1) + (first(na.omit(Seq)) - sum(cumall(is.na(Seq))))) %>%
  ungroup()

所有这些操作都是为了一个目的：将序列的起始位置移动到第一个非NA值和之前的NA数量之间的差距处。

   Group   Seq newseq
   <int> <int>  <dbl>
 1     1    NA      3
 2     1    NA      4
 3     1    NA      5
 4     1     6      6
 5     1     7      7
 6     1     8      8
 7     1    NA      9
 8     1    10     10
 9     1    11     11
10     1    NA     12
# ... with 35 more rows