从两个数据框有条件地合并数据。

3
我目前正在尝试将来自两个眼动数据框的信息结合起来。在一个数据框(行为学)中,每个实验中都有与之关联的开始和结束时间。在另一个数据框(凝视)中,记录了注视的时间戳。我想要遍历每个凝视时间戳,并评估它是否在试验的开始和结束时间内(从行为学数据框中获取的信息),如果是,则将行为学数据框中的试验信息添加到凝视数据框中的试验列中。
这些数据框如下所示:
Behavioral df
   StartTime    EndTime Trial
1:         0     0.8     a
2:         1     1.8     b
3:         2     2.8     c
4:         3     3.8     d

Gaze df 
  Gaze    x   y Frame   Trial
 1: 0.00 100 200   126    NA
 2: 0.20 101 201   126    NA
 3: 0.40 102 202   127    NA
 4: 0.80 103 203   127    NA
 5: 0.60 104 204   127    NA
 6: 0.90 105 205   127    NA
 7: 1.20 106 206   128    NA
 8: 1.40 107 207   128    NA
 9: 1.60 108 208   128    NA
10: 2.02 109 209   129    NA
11: 2.50 110 210   129    NA
12: 2.90 111 211   129    NA
13: 3.10 112 212   130    NA
14: 3.79 113 213   130    NA

我想查看注视时间戳。比如说,对于Gaze$Gaze[1],它是否在0到0.8之间?是的 >>> Gaze$Trial[1]=a

我已经尝试过

for(i in Gaze$Gaze){
  if(as.numeric(Gaze$Gaze[i]) >= as.numeric(Behavior$StartTime[i])){
    if(as.numeric(Gaze$Gaze[i]) <= as.numeric(Behavior$EndTime[i])){
      Gaze$Trial[i]<-Behavior$Trial[i]
    }
  }
  else Gaze$Trial[i]<-NA

}

我遇到了以下错误:

如果(as.numeric(fakegaze$Gaze[i]) >= as.numeric(fakebehavior$StartTime[i])) {

Error in if (as.numeric(fakegaze$Gaze[i]) >= as.numeric(fakebehavior$StartTime[i])) { :

参数长度为零

我认为在合并信息之前,我可能需要使用另一个for循环分别迭代这两个数据框,但是我不确定从哪里开始。谢谢!
数据:
library(data.table)
beh = setDT(structure(list(StartTime = c(0, 1, 2, 3), EndTime = c(0.8, 1.8, 2.8, 3.8
), Trial = c("a", "b", "c", "d")), row.names = c(NA, -4L), class = "data.frame"))

gaze = setDT(structure(list(Gaze = c(0, 0.2, 0.4, 0.8, 0.6, 0.9, 1.2, 1.4, 
1.6, 2.02, 2.5, 2.9, 3.1, 3.79), x = 100:113, y = 200:213, Frame = c(126L, 
126L, 127L, 127L, 127L, 127L, 128L, 128L, 128L, 129L, 129L, 129L, 
130L, 130L), Trial = c(NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, 
NA, NA, NA, NA)), row.names = c(NA, -14L), class = "data.frame"))
1个回答

1
您可以使用非等值连接来更新gaze表中的Trial:
gaze[, Trial := beh[.SD, on=.(StartTime <= Gaze, EndTime >= Gaze), x.Trial]]

    Gaze   x   y Frame Trial
 1: 0.00 100 200   126     a
 2: 0.20 101 201   126     a
 3: 0.40 102 202   127     a
 4: 0.80 103 203   127     a
 5: 0.60 104 204   127     a
 6: 0.90 105 205   127  <NA>
 7: 1.20 106 206   128     b
 8: 1.40 107 207   128     b
 9: 1.60 108 208   128     b
10: 2.02 109 209   129     c
11: 2.50 110 210   129     c
12: 2.90 111 211   129  <NA>
13: 3.10 112 212   130     d
14: 3.79 113 213   130     d

这种方法假设beh中没有重叠的时间间隔(否则右侧试验可能会不明确)。
(OP没有使用data.table标记问题或包含library(data.table)调用,但我根据表格的打印方式假设他们在使用它。)
作为.SD is locked错误bug的解决方法,我通常使用copy(.SD),正如错误信息所建议的那样。然而,正如OP在评论中指出的那样,这在处理大量数据时可能会很昂贵。一种通常等效的替代方法是翻转连接:
# convert to correct NA type
gaze[, Trial := rep(beh$Trial[NA_integer_], .N)] 
# reversed update join
gaze[beh, on=.(Gaze >= StartTime, Gaze <= EndTime), Trial := i.Trial]

对于OP的情况,它似乎仍然产生了正确的结果。我通常避免这种连接,因为我发现它更难读,并且可能会产生奇怪的副作用。特别是,在x[i, on=, v := i.v]中,如果多行映射到同一行x,则只使用最后匹配的行(没有警告或错误)。

这太完美了,谢谢!有没有办法对从CSV文件导入的更大一组值执行此操作?目前我正在使用fread导入文件,并运行相同的非等式语句,但是我遇到了错误:Error in set(i, j = lc, value = newval) : .SD is locked. Updating .SD by reference using := or set are reserved for future use. Use := in j directly. Or use copy(.SD) as a (slow) last resort, until shallow() is exported. 你知道原因吗?再次感谢! - Channing Everidge Hambric
@ChanningEveridgeHambric 这是一个错误,但我不确定为什么在某些情况下会出现而在其他情况下不会。除非速度太慢(如果表非常大可能会发生),否则我会使用copy(.SD)代替.SD,因为这是错误消息中推荐的。我已经编辑了答案,展示了另一种在这里可行的选项和一个问题链接。 - Frank

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接