匹配/分组重复的行(索引)

17

如何高效匹配/分组具有重复行的索引?

假设我有这个数据集:

set.seed(14)
dat <- data.frame(mtcars[sample(1:5, 14, TRUE), ])[sample.int(14), ]
rownames(dat) <- NULL
dat 

##     mpg cyl disp  hp drat    wt  qsec vs am gear carb
## 1  22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## 2  21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## 3  18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## 4  22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## 5  22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## 6  22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## 7  18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## 8  18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## 9  22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## 10 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## 11 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## 12 21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## 13 21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## 14 21.0   6  160 110 3.90 2.620 16.46  0  1    4    4

我可以使用以下方法找到所有重复项的索引(包括第一个重复项):

which_duplicated <- function(dat){
    which(duplicated(dat) | duplicated(dat[nrow(dat):1, ])[nrow(dat):1])
}

which_duplicated(dat)

## [1]  1  2  3  4  5  6  7  8  9 10 11 13
但我希望能够像下面所示将这些索引匹配起来:
list(
    c(2, 13),
    c(1, 4, 5, 6, 9),
    c(3, 7, 8, 10, 11)
)

我该如何高效地完成这件事?


1
Filter(function(x) length(x) > 1, by(dat, as.list(dat), rownames)) 很慢。 - rawr
2个回答

17

这里有一个使用"data.table"的可能性:

library(data.table)
as.data.table(dat)[, c("GRP", "N") := .(.GRP, .N), by = names(dat)][
                   N > 1, list(list(.I)), by = GRP]
##    GRP             V1
## 1:   1      1,4,5,6,9
## 2:   2           2,13
## 3:   3  3, 7, 8,10,11

基本思想是创建一个列来“分组”其他列(使用.GRP),以及一个计算重复行数的列(使用.N),然后过滤掉超过一个重复的任何内容,并将“GRP”列放入list中。


10

我们可以使用 dplyr。使用类似于@AnandaMahto帖子的方法,我们创建一个行索引列名(add_rownames()),按所有列进行分组,用每个组中的行数过滤数据集大于1,将 'rowname' 汇总为一个 list 并提取该 list 列。

library(dplyr)
add_rownames(dat) %>% 
      group_by_(.dots= names(dat)) %>% 
      filter(n()>1) %>%
      summarise(rn= list(rowname))%>%
      .$rn
 #[[1]]
 #[1] "3"  "7"  "8"  "10" "11"

 #[[2]]
 #[1] "2"  "13"

 #[[3]]
 #[1] "1" "4" "5" "6" "9"

3
两种解决方案都很出色(使用了我自己没有想到的相同逻辑),而且效率高。我将Ananda的解决方案打上了绿色勾号,因为他首先提出了该逻辑。谢谢+1。 - Tyler Rinker

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接