我希望能够在数据框中对变量进行线性插值,该插值需要考虑以下三个因素:1)两个点之间的时间差,2)数据采集时刻,3)用于测量变量的个体。
例如,在下面的数据框中:
例如,在下面的数据框中:
df <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
Individuals=c(1,1,1,1,1,1,1,2,2,2),
Value=c(1, 2, 3, NA, 5, NA, 7, 5, NA, 7))
df
我希望获得:
result <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
Individuals=c(1,1,1,1,1,1,1,2,2,2),
Value=c(1, 2, 3, 4, 5, 6, 7, 5, 5.5, 6))
result
我不能仅使用zoo
包中的na.approx
函数,因为所有观测值不是连续的,有些观测值属于一个人,而其他观测值属于其他人。原因是,如果第二个人的第一个观测值为NA
,则如果我仅使用na.approx
函数,我将使用individual==1
的信息来插值individual==2
的NA
(例如,下一个数据框将出现这样的错误)。
df_2 <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
Individuals=c(1,1,1,1,1,1,1,2,2,2),
Value=c(1, 2, 3, NA, 5, NA, 7, NA, 5, 7))
df_2
我尝试使用了zoo
和dplyr
这两个包:
library(dplyr)
library(zoo)
proof <- df %>%
group_by(Individuals) %>%
na.approx(df$Value)
但是我无法在一个zoo
对象中执行group_by
。
你知道如何按组内插值一个变量中的NA
值吗?
提前致谢,