用0替换每个分组中的前导NA，但保留其他NA

Question

用0替换每个分组中的前导NA，但保留其他NA

3

我有一个按州分组的COVID数据框，其中包含60个列。由于COVID在不同的州开始的时间不同，因此不同州的值之前有NA。不同的指标（column9）也有不同的数据起始时间。下面是我为演示制作的示例df。

state <- c(rep("A", 6), rep("B", 6))
time <- c(1, 2, 3, 4, 5, 6, 1, 2, 3, 4, 5, 6)
x1 <- c(NA, NA, NA, 4, 5, 6, NA, NA, 3, 4, 5, NA)
x2 <- c(NA, 2, 3, NA, 5, 6, NA, NA, NA, 4, 5, 6)
x3 <- c(NA, NA, 3, 4, 5, NA, NA, 2, NA, 4, 5, 6)
df <- data.frame(state, time, x1, x2, x3)
df

   state time x1 x2 x3
1      A    1 NA NA NA
2      A    2 NA  2 NA
3      A    3 NA  3  3
4      A    4  4 NA  4
5      A    5  5  5  5
6      A    6  6  6 NA
7      B    1 NA NA NA
8      B    2 NA NA  2
9      B    3  3 NA NA
10     B    4  4  4  4
11     B    5  5  5  5
12     B    6 NA  6  6

我正在努力将每个州的所有领先NAs替换为0，但保留其他NAs。结果应该如下所示：

   state time x1 x2 x3
1      A    1  0  0  0
2      A    2  0  2  0
3      A    3  0  3  3
4      A    4  4 NA  4
5      A    5  5  5  5
6      A    6  6  6 NA
7      B    1  0  0  0
8      B    2  0  0  2
9      B    3  3  0 NA
10     B    4  4  4  4
11     B    5  5  5  5
12     B    6 NA  6  6

我想到的一个解决方案是通过累积求和的条件来替换缺失值，具体如下:

df1 <- df %>% 
  group_by(state) %>% 
  mutate(
    check.sum1 = cumsum(replace_na(x1, 0)),
    x1 = if_else(check.sum1 != 0, x1, 0),
    check.sum2 = cumsum(replace_na(x2, 0)),
    x2 = if_else(check.sum2 != 0, x2, 0),
    check.sum3 = cumsum(replace_na(x3, 0)),
    x3 = if_else(check.sum3 != 0, x3, 0)
  )
df1

这个方法运行良好。但是由于有60列，我想用一个函数进行包装和/或使用apply()。但它会产生错误信息：

df2 <- df %>% 
  group_by(state) %>% 
  apply(
    df[3:5], MARGIN = 2, FUN = function(x) mutate(
      check.sum = cumsum(replace_na(x, 0)),
      x = if_else(check.sum != 0, x, 0)
    ) 
  )

Error in FUN(newX[, i], ...) : unused argument (df[3:5])

#or
func <- function(x) {
  mutate(
    check.sum = cumsum(replace_na(x, 0)),
    x = if_else(check.sum != 0, x, 0)
  )
}

df3 <- df %>% 
  group_by(state) %>% 
  apply(
    df[3:5], MARGIN = 2, func
  )

Error in match.fun(FUN) : 
  'df[3:5]' is not a function, character or symbol

因此，有三个具体的问题：

如何使用列作为参数创建用户定义函数。
如何使用apply()函数。
是否有其他方法可以使用现有函数，例如na.locf()或na.trim()来完成任务？

谢谢！

- Joe Wang

2个回答

0

使用 dplyr，我们可以做到

library(dplyr)
df %>%
    group_by(state) %>% 
    mutate(across(starts_with('x'), ~ replace(., !cumsum(!is.na(.)), 0))) %>% 
    ungroup
# A tibble: 12 × 5
   state  time    x1    x2    x3
   <chr> <dbl> <dbl> <dbl> <dbl>
 1 A         1     0     0     0
 2 A         2     0     2     0
 3 A         3     0     3     3
 4 A         4     4    NA     4
 5 A         5     5     5     5
 6 A         6     6     6    NA
 7 B         1     0     0     0
 8 B         2     0     0     2
 9 B         3     3     0    NA
10 B         4     4     4     4
11 B         5     5     5     5
12 B         6    NA     6     6

- akrun

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- jay.sf · Accepted Answer

使用by并查找一个列is.na和NA没有重复，即布尔differences小于或等于零。

do.call(rbind, by(df, df$state, \(x) {
  x[] <- lapply(x, \(z) {z[is.na(z) & c(0, diff(is.na(z))) <= 0] <- 0; z})
  return(x)
}))
#      state time x1 x2 x3
# A.1      A    1  0  0  0
# A.2      A    2  0  2  0
# A.3      A    3  0  3  3
# A.4      A    4  4 NA  4
# A.5      A    5  5  5  5
# A.6      A    6  6  6 NA
# B.7      B    1  0  0  0
# B.8      B    2  0  0  2
# B.9      B    3  3  0 NA
# B.10     B    4  4  4  4
# B.11     B    5  5  5  5
# B.12     B    6 NA  6  6

注意: 请使用更新R>=4.1来使用\(x)函数的速记符号，或者写成function(x)。