R: 按组插补NAs

7
我希望能够在数据框中对变量进行线性插值,该插值需要考虑以下三个因素:1)两个点之间的时间差,2)数据采集时刻,3)用于测量变量的个体。
例如,在下面的数据框中:
 df <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
            Individuals=c(1,1,1,1,1,1,1,2,2,2),
            Value=c(1, 2, 3, NA, 5, NA, 7, 5, NA, 7))
  df

我希望获得:

 result <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
                Individuals=c(1,1,1,1,1,1,1,2,2,2),
                Value=c(1, 2, 3, 4, 5, 6, 7, 5, 5.5, 6))
 result

我不能仅使用zoo包中的na.approx函数,因为所有观测值不是连续的,有些观测值属于一个人,而其他观测值属于其他人。原因是,如果第二个人的第一个观测值为NA,则如果我仅使用na.approx函数,我将使用individual==1的信息来插值individual==2NA(例如,下一个数据框将出现这样的错误)。

  df_2 <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
                Individuals=c(1,1,1,1,1,1,1,2,2,2),
                Value=c(1, 2, 3, NA, 5, NA, 7, NA, 5, 7))
  df_2

我尝试使用了zoodplyr这两个包:

library(dplyr)
library(zoo)
proof <- df %>%
  group_by(Individuals) %>%
  na.approx(df$Value)

但是我无法在一个zoo对象中执行group_by

你知道如何按组内插值一个变量中的NA值吗?

提前致谢,


您能否详细说明一下您期望的输出是什么?此外,您尝试获取的“Ear_tag”分组是什么?因为在您提供的数据框中不存在这一列。 - Pash101
2个回答

10

使用data.frame而不是cbind来创建您的数据。 cbind返回一个矩阵,但是您需要一个数据框才能使用dplyr。 然后在mutate内部使用na.approx。 我已经注释掉了group_by,因为您没有提供数据中的分组变量,但是一旦将分组变量添加到数据框中,该方法应该可以工作。

df <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
            Individuals=c(1,1,1,1,1,1,1,2,2,2),
            Value=c(NA, 2, 3, NA, 5, NA, 7, 8, NA, 10))

library(dplyr)
library(zoo)

df %>%
  group_by(Individuals) %>%
  mutate(ValueInterp = na.approx(Value, na.rm=FALSE))    
   time Individuals Value ValueInterp
1     1           1    NA          NA
2     2           1     2           2
3     3           1     3           3
4     4           1    NA           4
5     5           1     5           5
6     6           1    NA           6
7     7           1     7           7
8     1           2     8           8
9     2           2    NA           9
10    3           2    10          10

更新:要插值多个列,我们可以使用mutate_at。以下是一个包含两个值列的示例。我们使用mutate_at在所有列中运行na.approx,这些列的列名中包含"Value"list(interp=na.approx)告诉mutate_at通过运行na.approx并将interp作为后缀添加到生成新列名中来生成新列名:

df <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
                 Individuals=c(1,1,1,1,1,1,1,2,2,2),
                 Value1=c(NA, 2, 3, NA, 5, NA, 7, 8, NA, 10),
                 Value2=c(NA, 2, 3, NA, 5, NA, 7, 8, NA, 10)*2)

df %>%
  group_by(Individuals) %>%
  mutate_at(vars(matches("Value")), list(interp=na.approx), na.rm=FALSE)
    time Individuals Value1 Value2 Value1_interp Value2_interp
   <dbl>       <dbl>  <dbl>  <dbl>         <dbl>         <dbl>
 1     1           1     NA     NA            NA            NA
 2     2           1      2      4             2             4
 3     3           1      3      6             3             6
 4     4           1     NA     NA             4             8
 5     5           1      5     10             5            10
 6     6           1     NA     NA             6            12
 7     7           1      7     14             7            14
 8     1           2      8     16             8            16
 9     2           2     NA     NA             9            18
10     3           2     10     20            10            20
如果您不想保留原始的未插值列,可以执行以下操作:
df %>%
  group_by(Individuals) %>%
  mutate_at(vars(matches("Value")), na.approx, na.rm=FALSE)

太好了,对于示例df它有效,但是当NA位于第一或最后一个观测值时(如在df_2中提出的示例),它就无法工作。是否可能使代码至少插值不是第一个或最后一个观测值的数据? - Ruben
1
只需添加 na.rm=FALSE(请参见更新的代码)。然后,结果向量中的前导和尾随 NA 值将被保留。 - eipi10
如果一个人只有1或2个观测值且这些值为NA,我该如何对整个数据集进行插值操作呢?例如,在此数据框中: df <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3), Individuals=c(3,3,1,1,1,1,1,2,2,2), Value=c(NA, 2, 3, NA, 5, NA, 7, 8, NA, 10)) 我想得到其余数据的插值,但当我应用此代码时,R会报错:Error in approx(x[!na], y[!na], xout, ...) : need at least two non-NA values to interpolate。是否有任何方法可以不考虑不可能的情况? - Ruben
我想要对多列进行相同的操作,应该如何修改代码? - msh855

5
我们可以使用data.table
library(data.table)
library(zoo)
setDT(df1)[, ValueInterp:= na.approx(Value, na.rm=TRUE), by = Individual]

1
是的,它可以在NA不位于个体的第一个或最后一个观测值的情况下工作,但当NA是第一或最后一个观测时,它无法工作。但最糟糕的是,data.table提供了一个结果,提供了项目(警告消息)并执行错误的分配,如果您运行不能检查所有警告消息的大型代码,则这是危险的。 - Ruben
输出应该插值所有的“NA”,除了它们是一个个体的第一个或最后一个观察值。 - Ruben
1
@Ruben 你的意思是说对于 df_2,你不需要第8行吗?通过使用 na.rm=TRUE,我们可以替换掉所有的NA值,除了第一个。 - akrun
expected_df <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3), Individuals=c(3,3,1,1,1,1,1,2,2,2), Value=c(NA, 2, 3, NA, 5, NA, 7, 8, NA, 10), ValueInterp=c(NA,2,3,4,5,6,7,8,9,10)) expected_df - Ruben
1
尝试使用以下代码:setDT(df)[, ValueInterp := if(length(na.omit(Value))<2) Value else na.approx(Value, na.rm=TRUE), Individuals] - akrun
显示剩余7条评论

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接