dplyr::slice in data.table

9
以下是在data.table中执行下面操作的惯用方式是什么?
library(dplyr)
df %>% 
  group_by(b) %>% 
  slice(1:10)

我可以做到

library(data.table)
df[, .SD[1:10]
   , by = b]

但那看起来要慢得多。有更好的方法吗?

set.seed(0)
df <- rep(1:500, sample(500:1000, 500, T)) %>% 
        data.table(a = runif(length(.))
                  ,b = .)

f1 <- function(df){
  df %>% 
    group_by(b) %>% 
    slice(1:10)
}
f2 <- function(df){
  df[, .SD[1:10]
     , by = b]
}

library(microbenchmark)
microbenchmark(f1(df), f2(df))
#Unit: milliseconds
#   expr      min       lq      mean   median        uq      max neval
# f1(df) 17.67435 19.50381  22.06026 20.50166  21.42668  78.3318   100
# f2(df) 69.69554 79.43387 119.67845 88.25585 106.38661 581.3067   100

========== 推荐方法的基准测试 ==========

set.seed(0)
df <- rep(1:500, sample(500:1000, 500, T)) %>% 
        data.table(a = runif(length(.))
                  ,b = .)

use.slice <- function(df){
  df %>% 
    group_by(b) %>% 
    slice(1:10)
}
IndexSD <- function(df){
  df[, .SD[1:10]
     , by = b]
}
Index.I <- function(df) {
  df[df[, .I[seq_len(10)], by = b]$V1]
}
use.head <- function(df){
  df[, head(.SD, 10)
     , by = b]
}

library(microbenchmark)
microbenchmark(use.slice(df)
              , IndexSD(df)
              , Index.I(df)
              , use.head(df)
              , unit = "relative"
              , times = 100L)

#Unit: relative
#          expr       min        lq      mean    median        uq       max neval
# use.slice(df)  9.804549 10.269234  9.167413  8.900060  8.782862  6.520270   100
#   IndexSD(df) 38.881793 42.548555 39.044095 38.636523 39.942621 18.981748   100
#   Index.I(df)  1.000000  1.000000  1.000000  1.000000  1.000000  1.000000   100
#  use.head(df)  3.666898  4.033038  3.728299  3.408249  3.545258  3.951565   100

head(.SD, 10) 应该也很快。 - Frank
1
谢谢@Frank。我在我的测试案例中添加了4种方法的基准测试。 - IceCreamToucan
1个回答

8
我们可以使用.I来提取行索引,这样应该会更快。
out <- df[df[, .I[seq_len(10)], by = b]$V1]
dim(out)
#[1] 5000    2

检查是否存在缺失值(如楼主所评论的)

any(out[, Reduce(`|`, lapply(.SD, is.na))])
#[1] FALSE


dim(df)
#[1] 374337      2

基准测试

f3 <- function(df) {
  df[df[, .I[seq_len(10)], by = b]$V1]
 }

microbenchmark(f1(df), f2(df), f3(df), unit = "relative", times = 10L)
#Unit: relative
#   expr       min        lq      mean    median        uq      max neval cld
# f1(df)  5.727822  5.480741  4.945486  5.672206  4.317531  5.10003    10  b 
# f2(df) 24.572633 23.774534 17.842622 23.070634 16.099822 11.58287    10   c
# f3(df)  1.000000  1.000000  1.000000  1.000000  1.000000  1.00000    10 a  

@Renu 我不太明白。df[df[, .I[seq_len(10)], by = b]$V1] %>% dim# [1] 5000 2# dim(df)# [1] 374337 - akrun
1
不确定发生了什么。我清除了我的会话,你的解决方案按预期工作。 - IceCreamToucan
1
@Renu 抱歉,我没有理解这个评论。内部的 df[, .I[seq_len(10)], by = b] 返回一个名为 'V1' 的列,即列索引。我们使用 $V1 提取它并用于子集数据。这可能是版本问题。当我做其他事情时,我也注意到了这些问题。为了使它更安全,您可以分两步完成此操作:i1 <- df[, .I[seq_len(10)], by = b]$V1]; df[i1] - akrun
@akrun 你知道为什么 indexSD 和 use.head(OP 创建的函数)只在只有一个组时才起作用吗?下面的代码给出了 Empty data.table (0 rows and 2 cols): samples,groupssamples<-c("A","A","A","A","B","B","B","C","C","C") groups<-c(1,1,2,3,1,1,1,2,2,2) df<- data.frame(samples,groups) library(data.table) setDT(df) df[, .SD[1:2], by = .(samples, groups)] - daniellga

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接