在列中一段连续的NA值中,将最后一个NA值替换为最近的有效值。

3

这里是一个样本数据框:

> df = data.frame(rep(seq(0, 120, length.out=6), times = 2), c(sample(1:50, 4), 
+ NA, NA, NA, sample(1:50, 5)))
> colnames(df) = c("Time", "Pat1")
> df
     Time Pat1
1     0   33
2    24   48
3    48    7
4    72    8
5    96   NA
6   120   NA
7     0   NA
8    24    1
9    48    6
10   72   28
11   96   31
12  120   32

需要替换的NA通过which和逻辑运算符进行识别:

x = which(is.na(df$Pat1) & df$Time == 0)

我知道locf()命令,但它会替换所有的NAs。如何只替换多列数据框中位置为x的NAs?

编辑:这里是我的原始数据集链接:链接

这就是我到目前为止所做的:

require(reshape2)
require(zoo)

pad.88 <- read.csv2("pad_88.csv")
colnames(pad.88) = c("Time", "Increment", "Side", 4:length(pad.88)-3)
attach(pad.88)

x = which(Time == 240 & Increment != 5)

pad.88 = pad.88[c(1:x[1], x[1]:x[2], x[2]:x[3], x[3]:x[4], x[4]:x[5], x[5]:x[6],x[6]:x[7], x[7]:x[8], x[8]:nrow(pad.88)),] 

y = which(duplicated(pad.88))
pad.88$Time[y] = 0

pad.88$Increment[y] = Increment[x] + 1

z = which(is.na(pad.88[4:ncol(pad.88)] & pad.88$Time == 0), arr.ind=T)
a = na.locf(pad.88[4:ncol(pad.88)])

我的下一步是类似于pat.cols[z] = a[z],但这并不起作用。


这就是结果应该看起来的样子:

Time Increment Side      1       2       3       4       5    ...

150     4       0   27,478  24,076  27,862  20,001  25,261
165     4       0   27,053  24,838  27,231  20,001  NA
180     4       0   27,599  24,166  27,862  20,687  NA
195     4       0   27,114  23,403  27,862  20,001  NA
210     4       0   26,993  24,076  27,189  19,716  NA
225     4       0   26,629  24,21   26,221  19,887  NA
240     4       0   26,811  26,228  26,431  20,001  NA
  0     5       1   26,811  26,228  26,431  20,001  25,261
 15     5       1   ....

第五列中最后一个有效值为25,261。该值将替代时间0/第五列的NA。


你的问题标题与 x 的描述不一致。你想要特定的 NA 值还是给定列中的最后一个 NA - Carl Witthoft
请提供您关联数据的一个小子集,最重要的是,您希望得到什么样的结果。 - Carl Witthoft
问题标题对于简单的示例是有效的,但问题似乎更加复杂,因为在某些列中有多个带有NA的段。x的定义是正确的。我正在更新问题标题。 - Markus
1个回答

3
您可以更改代码,使其记录所有NA值,并使用其中的第一个和最后一个来确定您想要的位置。
df
   Time Pat1
1     0   36
2    24   13
3    48   32
4    72   38
5    96   NA
6   120   NA
7     0   NA
8    24    5
9    48   10
10   72    7
11   96   25
12  120   28

x <- which(is.na(df$Pat1))
df[rev(x)[1],"Pat1"] <- df[x[1]-1,"Pat1"]
df
   Time Pat1
1     0   36
2    24   13
3    48   32
4    72   38
5    96   NA
6   120   NA
7     0   38
8    24    5
9    48   10
10   72    7
11   96   25
12  120   28

对于多列示例,可以在sapply调用中使用相同的想法:

cbind(df[1],sapply(df[-1],function(x) {y<-which(is.na(x));x[rev(y)[1]]<-x[y[1]-1];x}))
   Time Pat1 Pat2
1     0   41   42
2    24    8   30
3    48    3   41
4    72   14   NA
5    96   NA   NA
6   120   NA   NA
7     0   14   41
8    24    5   37
9    48   29   48
10   72   31   11
11   96   50   43
12  120   46   21

似乎我的示例太简单了。使用以下df,你会怎么做呢?df = data.frame(rep(seq(0, 120, length.out=6), times = 2), c(sample(1:50, 4), NA, NA, NA, sample(1:50, 5)), c(sample(1:50, 3), NA, NA, NA, NA, sample(1:50, 5))) > colnames(df) = c("Time", "Pat1", "Pat2") 我的真实df至少有18列。 - Markus
1
@Markus 那将是一个更为复杂的问题。我需要再仔细考虑一下。rle 很可能会被涉及进来。 - James

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接