用0替换每个分组中的前导NA,但保留其他NA

3

我有一个按州分组的COVID数据框,其中包含60个列。由于COVID在不同的州开始的时间不同,因此不同州的值之前有NA。不同的指标(column9)也有不同的数据起始时间。下面是我为演示制作的示例df。

state <- c(rep("A", 6), rep("B", 6))
time <- c(1, 2, 3, 4, 5, 6, 1, 2, 3, 4, 5, 6)
x1 <- c(NA, NA, NA, 4, 5, 6, NA, NA, 3, 4, 5, NA)
x2 <- c(NA, 2, 3, NA, 5, 6, NA, NA, NA, 4, 5, 6)
x3 <- c(NA, NA, 3, 4, 5, NA, NA, 2, NA, 4, 5, 6)
df <- data.frame(state, time, x1, x2, x3)
df

   state time x1 x2 x3
1      A    1 NA NA NA
2      A    2 NA  2 NA
3      A    3 NA  3  3
4      A    4  4 NA  4
5      A    5  5  5  5
6      A    6  6  6 NA
7      B    1 NA NA NA
8      B    2 NA NA  2
9      B    3  3 NA NA
10     B    4  4  4  4
11     B    5  5  5  5
12     B    6 NA  6  6

我正在努力将每个州的所有领先NAs替换为0,但保留其他NAs。结果应该如下所示:

   state time x1 x2 x3
1      A    1  0  0  0
2      A    2  0  2  0
3      A    3  0  3  3
4      A    4  4 NA  4
5      A    5  5  5  5
6      A    6  6  6 NA
7      B    1  0  0  0
8      B    2  0  0  2
9      B    3  3  0 NA
10     B    4  4  4  4
11     B    5  5  5  5
12     B    6 NA  6  6

我想到的一个解决方案是通过累积求和的条件来替换缺失值,具体如下:
df1 <- df %>% 
  group_by(state) %>% 
  mutate(
    check.sum1 = cumsum(replace_na(x1, 0)),
    x1 = if_else(check.sum1 != 0, x1, 0),
    check.sum2 = cumsum(replace_na(x2, 0)),
    x2 = if_else(check.sum2 != 0, x2, 0),
    check.sum3 = cumsum(replace_na(x3, 0)),
    x3 = if_else(check.sum3 != 0, x3, 0)
  )
df1

这个方法运行良好。但是由于有60列,我想用一个函数进行包装和/或使用apply()。但它会产生错误信息:

df2 <- df %>% 
  group_by(state) %>% 
  apply(
    df[3:5], MARGIN = 2, FUN = function(x) mutate(
      check.sum = cumsum(replace_na(x, 0)),
      x = if_else(check.sum != 0, x, 0)
    ) 
  )

Error in FUN(newX[, i], ...) : unused argument (df[3:5])

#or
func <- function(x) {
  mutate(
    check.sum = cumsum(replace_na(x, 0)),
    x = if_else(check.sum != 0, x, 0)
  )
}

df3 <- df %>% 
  group_by(state) %>% 
  apply(
    df[3:5], MARGIN = 2, func
  )

Error in match.fun(FUN) : 
  'df[3:5]' is not a function, character or symbol

因此,有三个具体的问题:

  1. 如何使用列作为参数创建用户定义函数。
  2. 如何使用apply()函数。
  3. 是否有其他方法可以使用现有函数,例如na.locf()或na.trim()来完成任务?

谢谢!

2个回答

1
使用by并查找一个列is.naNA没有重复,即布尔differences小于或等于零。
do.call(rbind, by(df, df$state, \(x) {
  x[] <- lapply(x, \(z) {z[is.na(z) & c(0, diff(is.na(z))) <= 0] <- 0; z})
  return(x)
}))
#      state time x1 x2 x3
# A.1      A    1  0  0  0
# A.2      A    2  0  2  0
# A.3      A    3  0  3  3
# A.4      A    4  4 NA  4
# A.5      A    5  5  5  5
# A.6      A    6  6  6 NA
# B.7      B    1  0  0  0
# B.8      B    2  0  0  2
# B.9      B    3  3  0 NA
# B.10     B    4  4  4  4
# B.11     B    5  5  5  5
# B.12     B    6 NA  6  6

注意: 请使用更新R>=4.1来使用\(x)函数的速记符号,或者写成function(x)


0

使用 dplyr,我们可以做到

library(dplyr)
df %>%
    group_by(state) %>% 
    mutate(across(starts_with('x'), ~ replace(., !cumsum(!is.na(.)), 0))) %>% 
    ungroup
# A tibble: 12 × 5
   state  time    x1    x2    x3
   <chr> <dbl> <dbl> <dbl> <dbl>
 1 A         1     0     0     0
 2 A         2     0     2     0
 3 A         3     0     3     3
 4 A         4     4    NA     4
 5 A         5     5     5     5
 6 A         6     6     6    NA
 7 B         1     0     0     0
 8 B         2     0     0     2
 9 B         3     3     0    NA
10 B         4     4     4     4
11 B         5     5     5     5
12 B         6    NA     6     6

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接