填充有限数量的值 - tidyr Fill

3

我有一个数据框,我正在使用:

df <-  data.frame(dates = seq(as.Date("2016-01-01"),as.Date("2016-01-10"), by=1)
       , category = c(rep("a",5), rep("b",5))
       , values= c(1, rep(NA,4), 5,6, rep(NA,3))) 

df %>% group_by(category) %>% fill(values)

但我希望fill仅向前填充一定数量的位置(即如果它距离初始点太远,则停止向前填充)。是否有一种不需要for循环的简单方法来实现这一点?
在这个例子中,如果日期距离最后一个非 NA 点超过2天,我想停止填充。因此,值列应该是:
values = c(1,1,1,NA,NA, 5,6,6,6,NA)

Thank you


请提供一个示例以重现您的代码。 - Mostafa90
1个回答

2

一种方法是首先使用fill(values),然后将超过最后一个非NA点两天的任何观察值转换为NA(即max(dates [!is.na(values)]))。

library(dplyr)
library(tidyr)

df %>% 
  group_by(category) %>% 
  mutate(new_date = max(dates[!is.na(values)]), diff1 = as.numeric(difftime(dates, new_date)/(24*3600))) %>% 
  fill(values) %>% 
  mutate(values = replace(values, which(diff1 > 2), NA)) %>% 
  select(dates:values)

#Source: local data frame [10 x 3]
#Groups: category [2]

#        dates category values
#       (date)   (fctr)  (dbl)
#1  2016-01-01        a      1
#2  2016-01-02        a      1
#3  2016-01-03        a      1
#4  2016-01-04        a     NA
#5  2016-01-05        a     NA
#6  2016-01-06        b      5
#7  2016-01-07        b      6
#8  2016-01-08        b      6
#9  2016-01-09        b      6
#10 2016-01-10        b     NA

请注意,difftime 给出的是秒数,因此我手动转换为天数。

只是为了记录。您不必手动将秒转换为天数。只需在difftime中将units参数设置为days即可。 - Paweł Kozielski-Romaneczko

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接