使用data.table按组筛选最大值对应的行

Question

使用data.table按组筛选最大值对应的行

72

假设我有一个包含一些棒球运动员的data.table:

library(plyr)
library(data.table)

bdt <- as.data.table(baseball)

对于每个组（由玩家“id”给出），我想选择与最大游戏数“g”相对应的行。在plyr中，这很简单：

对于每个由玩家"id"指定的分组，我想选择与最大游戏数"g"相对应的行。这在plyr中很容易实现：

ddply(baseball, "id", subset, g == max(g))

使用 data.table 的等价代码是什么？

我尝试过：

setkey(bdt, "id") 
bdt[g == max(g)]  # only one row
bdt[g == max(g), by = id]  # Error: 'by' or 'keyby' is supplied but not j
bdt[, .SD[g == max(g)]] # only one row

这有效：

bdt[, .SD[g == max(g)], by = id]

但它只比plyr快30%，这表明它可能不符合惯用方式。

- hadley

2

哇，那真的很慢，但如果你用“year”代替“.SD”……我得到了年、.SD、plyr分别为0.01、1.58、2.39用户时间。 - Frank

@Frank，但我想要整个数据框，而不仅仅是年份。我会澄清问题。 - hadley

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- eddi · Accepted Answer

这是快速的 data.table 方法：

bdt[bdt[, .I[g == max(g)], by = id]$V1]

这样可以避免构造.SD，而这是您的表达式中的瓶颈。

编辑：实际上，OP运行缓慢的主要原因不仅仅是其中有.SD，而是它以特定方式使用它 - 通过调用[.data.table，目前它的开销很大，所以在一个循环中运行它(当使用by时)会累积非常大的惩罚。