如何在data.table分组中获取当前组的长度？

Question

10

我知道其他包也可以实现这个功能，但我想尝试使用 data.table（因为它似乎是最快的分组方法）。

library(data.table)
dt = data.table(a=c(1,2,2,3))
dt[,length(a),by=a]

导致

然而

df = data.frame(a=c(1,2,2,3))
ddply(df,.(a),summarise,V1=length(a))

产生

这是一个更合理的结果。只是想知道为什么data.table没有给出相同的结果，以及如何实现相同的结果。

- jamborta

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Josh O'Brien · Accepted Answer

用 data.table 的方式来实现这个操作是使用特殊变量 .N，它可以跟踪当前组中的行数。（其他特殊变量包括 .SD、.BY（在版本 1.8.2 中）和 .I 和 .GRP（从版本 1.8.3 开始提供）。所有这些变量都在 ?data.table 中有文档记录）：

library(data.table)
dt = data.table(a=c(1,2,2,3))

dt[, .N, by = a]
#    a N
# 1: 1 1
# 2: 2 2
# 3: 3 1

要了解你尝试的方法为什么不起作用，请运行以下内容，并在每个浏览器提示处检查a和length(a)的值：

dt[, browser(), by = a]