按逻辑列对数据表进行子集筛选。

Question

33

我有一个带有逻辑列的data.table。为什么逻辑列的名称不能直接用于i参数？请参见以下示例。

dt <- data.table(x = c(T, T, F, T), y = 1:4)

# Works
dt[dt$x]
dt[!dt$x]

# Works
dt[x == T]
dt[x == F]

# Does not work
dt[x]
dt[!x]

- djhurio

3个回答

4

x 在全局环境中未定义。如果你尝试这样做，

> with(dt, dt[x])
      x y
1: TRUE 1
2: TRUE 2
3: TRUE 4

它可以工作。或者这样：

> attach(dt)
> dt[!x]
       x y
1: FALSE 3

编辑：

根据文档，j 参数接受列名，事实上：

> dt[x]
Error in eval(expr, envir, enclos) : object 'x' not found
> dt[j = x]
[1]  TRUE  TRUE FALSE  TRUE

那么，i 参数需要采用数字或逻辑表达式（就像 x 本身应该是的那样）。但是，如果没有这个东西，它（data.table）似乎无法将 x 视为逻辑值：

> dt[i = x]
Error in eval(expr, envir, enclos) : object 'x' not found
> dt[i = as.logical(x)]
      x y
1: TRUE 1
2: TRUE 2
3: TRUE 4

- Michele

1

不确定这是否是一个问题，x在全局环境中未定义，但 dt[x == T] 可以工作。 - djhurio

你是对的，然而这个错误 Error in eval(expr, envir, enclos) : object 'x' not found 表明了这一点。所以，你可能发现了一个潜在的 bug。 - Michele

@djhurio 在 [.data.table 的文档中，无论是 i 还是 j 部分都说“表达式在 data.table 的框架内进行评估（即它将列名视为变量）”。然而，在 i 参数中似乎需要一个显式的表达式，如 == 或 as.logical。 - Michele

2

这种方法也可以运作，并且更自然：

setkey(dt, x)
dt[J(TRUE)]
dt[J(FALSE)]

- Rico

1

值得注意的是，设置键并进行连接的渐近复杂度与在列上进行过滤的复杂度显着不同。前者需要先对数据进行排序，而后者可以通过线性遍历来完成。 - Andreas

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- mnel · Accepted Answer

来自 ?data.table

高级: 当 i 是一个单一的变量名称时，它不被视为列名称的表达式，而是在调用作用域中进行求值。

所以dt[x]将尝试在调用作用域中（在本例中为全局环境）评估x

您可以通过使用(或{或force解决此问题

dt[(x)]
dt[{x}]
dt[force(x)]