计算唯一值组合的数量

13

我的数据框长这样:

ID | value 1 | value 2 | value 3 | value 4
1  |    M    |    D    |    F    |   A
2  |    F    |    M    |    G    |   B
3  |    M    |    D    |    F    |   A
4  |    L    |    D    |    E    |   B

我想要得到像这样的东西。

value 1 | value 2 | value 3 | value 4|  Number of combinations
  M     |    D    |    F    |   A    |     2
  F     |    M    |    G    |   B    |     1
  L     |    D    |    E    |   B    |     1

例如,要计算列值1到列值4的唯一组合数。

4个回答

13
N <- 10000

d <- data.frame(
  ID=seq(1, N), 
  v1=sample(c("M","F", "M", "L"), N, replace = TRUE), 
  v2=sample(c("D","M","D","D"), N, replace = TRUE), 
  v3=sample(c("F","G","F","E"), N, replace = TRUE),
  v4=sample(c("A","B","A","B"), N, replace = TRUE)
)

使用data.table(最快)

dt <- data.table::as.data.table(d)
dt[, .N, by = c('v1','v2','v3','v4')]

使用dplyr

dplyr::count_(d, vars = c('v1','v2','v3','v4'))

使用plyr

plyr::count(d, vars = c('v1','v2','v3','v4'))
plyr::ddply(d, .variables = c('v1','v2','v3','v4'), nrow)

使用聚合函数(最慢)

aggregate(ID ~ ., d, FUN = length)

基准测试

microbenchmark::microbenchmark(dt[, .N, by = c('v1','v2','v3','v4')],
                               plyr::count(d, vars = c('v1','v2','v3','v4')),
                               plyr::ddply(d, .variables = c('v1','v2','v3','v4'), nrow),
                               dplyr::count_(d, vars = c('v1','v2','v3','v4')),
                               aggregate(ID ~ ., d, FUN = length), 
                               times = 1000)

Unit: microseconds
                                                         expr      min       lq      mean   median        uq        max neval  cld
                     dt[, .N, by = c("v1", "v2", "v3", "v4")]  887.807 1107.543  1263.777 1174.258  1289.724   4263.156  1000 a   
             plyr::count(d, vars = c("v1", "v2", "v3", "v4")) 3912.791 4270.387  5379.080 4498.053  5791.743 157146.103  1000   c 
 plyr::ddply(d, .variables = c("v1", "v2", "v3", "v4"), nrow) 7737.874 8553.370 10630.849 9018.266 11126.517 187301.696  1000    d
           dplyr::count_(d, vars = c("v1", "v2", "v3", "v4")) 2126.913 2432.957  2763.499 2568.251  2789.386  12549.669  1000  b  
                           aggregate(ID ~ ., d, FUN = length) 7395.440 8121.828 10546.659 8776.371 10858.263 210139.759  1000    d

使用data.table似乎是最好的选择,因为它速度最快,无需其他函数或库进行计数。请注意,在大型数据集上,aggregate函数的性能要慢得多。

最后说明:随时可以更新新方法。


我认为你应该展示一个稍微大一点的数据集的结果。此外,经过查看 args(plyr::count),我猜测 plyr::count(d, c('v1','v2','v3','v4')) 可能是正确的。很可能还有一个可以考虑的 dplyr::count - Frank
@Frank,现在基于1万行。 - Davor Josipovic
好的,谢谢。还有一点:现在 length(ID) 似乎不会给出正确的结果,因为 ID 重复了一些值。通常最好测试一下方法的结果是否相等。哦算了,我想它包含什么值并不重要。顺便说一下,data.table 快速的原因在 ?GForce 中有说明。 - Frank
它们提供了不同的格式,但是对于这种特定情况,tapply(d$ID, d[, -1], length)table(d[, -1])也很快。 - Frank

13

plyr包中,count函数可以完成这个任务。

> df
  ID   value.1   value.2   value.3 value.4
1  1     M         D         F           A
2  2     F         M         G           B
3  3     M         D         F           A
4  4     L         D         E           B
> library(plyr)
> count(df[, -1])
    value.1   value.2   value.3 value.4 freq
1     F         M         G           B    1
2     L         D         E           B    1
3     M         D         F           A    2

6

没有使用 Plyr。

aggregate(ID ~ ., d, FUN=length)# . means all variables in d except ID

很好,但与plyr :: count相比非常慢。从使用4000x500 DF汇总3列频率的microbenchmark测试中,似乎count快20倍(!)。 - Davor Josipovic

0

这里有一个使用plyr包的解决方案

library(plyr)
d <- data.frame(
    ID=seq(1,4), v1=c("M","F", "M", "L"), 
    v2=c("D","M","D","D"), v3=c("F","G","F","E"), v4=c("A","B","A","B")
)
ddply(d,.(v1,v2,v3,v4), nrow)

我希望这不是作业...


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接