什么是过滤数据框以仅获取大小为5的组的最佳方法?
因此,我的数据如下所示:
因此,我的数据如下所示:
require(dplyr)
n <- 1e5
x <- rnorm(n)
# Category size ranging each from 1 to 5
cat <- rep(seq_len(n/3), sample(1:5, n/3, replace = TRUE))[1:n]
dat <- data.frame(x = x, cat = cat)
我能想到的使用dplyr的方法是:
dat <- group_by(dat, cat)
system.time({
out1 <- dat %>% filter(n() == 5L)
})
# user system elapsed
# 1.157 0.218 1.497
但这非常慢...在dplyr中有更好的方法吗?
到目前为止,我的解决方案如下:
system.time({
all_ind <- rep(seq_len(n_groups(dat)), group_size(dat))
take_only <- which(group_size(dat) == 5L)
out2 <- dat[all_ind %in% take_only, ]
})
# user system elapsed
# 0.026 0.008 0.036
all.equal(out1, out2) # TRUE
但这感觉并不像是dplyr的特点...
setDT(dat)[, if(.N == 5) .SD, by = cat]
。 - Sotos