在数据表中按组查找第一个非NA观测值

Question

在数据表中按组查找第一个非NA观测值

6

我有一个包含许多缺失值的 data.table，我想要一个变量，在每个组中给出第一个非缺失值的1。

假设我有以下这样的 data.table:

library(data.table)
DT <- data.table(iris)[,.(Petal.Width,Species)]
DT[c(1:10,15,45:50,51:70,101:134),Petal.Width:=NA]

现在这段文本开头、结尾和中间都缺失了一些内容。我尝试过两个版本，其中一个是：

DT[min(which(!is.na(Petal.Width))),first_available:=1,by=Species]

但它只能找到全局最小值（在本例中，setosa获得了正确的1），而不是每组的最小值。我认为这是因为data.table首先按i子集，然后按组排序，对吗？因此，它仅适用于which(!is.na(Petal.Width))的全局最小行，即第一个非NA值。

第二次尝试使用j中的测试：

DT[,first_available:= ifelse(min(which(!is.na(Petal.Width))),1,0),by=Species]

这里是返回一个列的1s。但是，我没有一个好的解释为什么它不起作用。

我的目标是：

DT[,first_available:=0]
DT[c(11,71,135),first_available:=1]

但实际上我有数百个组。任何帮助都将不胜感激！

编辑：这个问题接近，但不针对NA，并且如果我理解正确，它无法解决此处的问题。我尝试过：

DT <- data.table(DT, key = c('Species'))
DT[unique(DT[,key(DT), with = FALSE]), mult = 'first']

- Jakob

2

可能是R：使用data.table和自连接按组获取第一个观察结果的重复问题。 - mtoto

see edit, I'm not sure - Jakob

3个回答

2

我们可以尝试。

DT[DT[, .I[which.max(!is.na(Petal.Width))] , Species]$V1, 
     first_available := 1][is.na(first_available), first_available := 0]

或者稍微更紧凑的选项是

DT[, first_available := as.integer(1:nrow(DT) %in% 
      DT[, .I[!is.na(Petal.Width)][1L], by = Species]$V1)][]

- akrun

1

太好了，这正是我要找的。我会跟上.I和1L的。 - Jakob

-1

  > DT[!is.na(DT$Petal.Width) & DT$first_available == 1]
  #      Petal.Width    Species first_available
  #   1:         0.2     setosa               1
  #   2:         1.8 versicolor               1
  #   3:         1.4  virginica               1

  > rownames(DT)[!is.na(DT$Petal.Width) & DT$first_available == 1]
  # [1] "11"  "71"  "135"

  > rownames(DT)[!is.na(DT$Petal.Width) & DT$first_available == 0]
  # [1] "12"  "13"  "14"  "16"  "17"  "18"  "19"  "20"  "21"  "22"  "23"  "24" 
  # [13] "25"  "26"  "27"  "28"  "29"  "30"  "31"  "32"  "33"  "34"  "35"  "36" 
  # [25] "37"  "38"  "39"  "40"  "41"  "42"  "43"  "44"  "72"  "73"  "74"  "75" 
  # [37] "76"  "77"  "78"  "79"  "80"  "81"  "82"  "83"  "84"  "85"  "86"  "87" 
  # [49] "88"  "89"  "90"  "91"  "92"  "93"  "94"  "95"  "96"  "97"  "98"  "99" 
  # [61] "100" "136" "137" "138" "139" "140" "141" "142" "143" "144" "145" "146"
  # [73] "147" "148" "149" "150"

- Sowmya S. Manian

1

但这假设我已经有答案了，对吗？first_available是我想要得到的，我只是在最后手动构建它以展示我的目标。 - Jakob

1

此外，混合使用 data.table 和 data.frame 语法不被认为是一种不好的风格吗？我偶尔这样做是为了简单起见，所以我不确定。你怎么看？ - Jakob

1

糟糕，刚刚检查了一下。我一直在尝试使用你的first_available函数，但它已经在DT中了，这是我的愚蠢。我会按照dataframe的方式进行操作。稍后会编辑我的答案。 - Sowmya S. Manian

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Arun · Accepted Answer

9

这是一种方法：

DT[!is.na(Petal.Width), first := as.integer(seq_len(.N) == 1L), by = Species]

- Arun

不错，这个还保留了中间的NA值，可能会很方便。 - Jakob

嘿，看起来不错，你能解释一下你代码中的这部分 seq_len(.N) 吗？ - Sowmya S. Manian

2

.N是一个特殊符号，它保存每个组的观测数量。而seq_len则从1到.N构建一个序列。请参阅?data.table了解.N和其他特殊符号，以及?seq_len获取更多信息。 - Arun