使用dplyr / tidyverse根据多列删除重复行？

Question

使用dplyr / tidyverse根据多列删除重复行？

6

我想使用dplyr/tidyverse基于>1列删除重复行。

示例

library(dplyr)

df <- data.frame(a=c(1,1,1,2,2,2), b=c(1,2,1,2,1,2), stringsAsFactors = F)

我原本认为这会返回第3行和第6行，但实际上它并没有返回任何行。

df %>% filter(duplicated(a, b))
# [1] a b
# <0 rows> (or 0-length row.names)

相反，我认为这将返回第1、2、4和5行，但它返回所有行。

df %>% filter(!duplicated(a, b))
#   a b
# 1 1 1
# 2 1 2
# 3 1 1
# 4 2 2
# 5 2 1
# 6 2 2

我漏掉了什么？

- stevec

2个回答

4

使用unique在数据框中可以得到唯一的行。

unique(df)

#  a b
#1 1 1
#2 1 2
#4 2 2
#5 2 1

另一种整洁的方法是选择每个组的第一行。

library(dplyr)

df %>% group_by(a, b) %>% slice(1L) 
#If only 2 columns
#df %>% group_by_all() %>%slice(1L)

#      a     b
#  <dbl> <dbl>
#1     1     1
#2     1     2
#3     2     1
#4     2     2

逆操作将是:

df %>%  group_by(a, b) %>% filter(n() > 1) %>%  distinct()
#If only 2 columns
#df %>%  group_by_all() %>% filter(n() > 1) %>%  distinct()

#     a     b
#  <dbl> <dbl>
#1     1     1
#2     2     2

- Ronak Shah

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- r2evans · Accepted Answer

duplicated 期望操作 "向量、数据框或数组" （但不是两个向量 … 它仅在第一个参数中查找重复项）。

df %>%
  filter(duplicated(.))
#   a b
# 1 1 1
# 2 2 2

df %>%
  filter(!duplicated(.))
#   a b
# 1 1 1
# 2 1 2
# 3 2 2
# 4 2 1

如果你想引用特定的列子集，那么请使用cbind:

df %>%
  filter(duplicated(cbind(a, b)))

作为一个附注，dplyr 的动词可以用 distinct：

df %>%
  distinct(a, b, .keep_all = TRUE)
#   a b
# 1 1 1
# 2 1 2
# 3 2 2
# 4 2 1

尽管我不知道这个函数是否有反函数。