PostgreSQL表格：查找两列中的重复项，无论顺序如何

Question

PostgreSQL表格：查找两列中的重复项，无论顺序如何

sqlpostgresqlduplicatesaggregate-functions

3

我有一个描述两点之间线条的PostgreSQL表格。它包含两列A和B，这些整数表示另一个表格中点的id。

但是每条线在表格中都是重复的，因为从A到B的线与从B到A的线是相同的。

我想要去除重复项，但我找不到适用于两列的聚合函数，以重新组合AB和BA线，然后删除其中一条。

谢谢 :)

- Laurent Jégou

1

我可以想象在这种情况下至少有两种可能的重复方式。***1).*** Lines 表包含一个指向 point_id(1), point_id(2) 的记录，也包含一个指向 point_id(2), point_id(1) 的记录。***2.*** 当你查看 point 表时，这两条线都具有不同的 point_id 值，但是不同的 point_id 可以具有相同的坐标。你能举个例子来澄清吗？ - MatBailie

感谢您的评论。重复项在point_ids中，而不是坐标，因此这是您问题的第一种情况。此外，所有行都是重复的，对于每个AB线路，都有一个BA线路，这是表格创建算法的结果。 - Laurent Jégou

2个回答

2

我已经留下了评论，但现在我假设两个重复记录之间唯一的区别是它们具有相同的point_id值，但是顺序相反。

如果是这样，那么实际上做起来非常简单...

DELETE
  line
WHERE
  point_id_a > point_id_b
  AND EXISTS (SELECT *
                FROM line AS lookup
               WHERE lookup.point_id_a = line.point_id_b
                 AND lookup.point_id_b = line.point_id_a
             )

- MatBailie

+1 这个方法假设只有 a, b 互换的重复值。如果存在多行具有相同的 a,b，则无法正常工作。 - Andomar

@Andomar - 正确，这就是我提出这样一个假设的原因 :) 但有趣的是，被接受的答案似乎是错误的（删除所有出现的内容，而不仅仅是重复的），即使进行了更正，也会做出与我的答案几乎相同的假设。（请参见我对答案的评论。） - MatBailie

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user330315 · Accepted Answer

识别重复项：

select least(a,b), greatest(a,b), count(*)
from the_table
group by least(a,b), greatest(a,b)
having count(*) > 1

我认为您应该能够使用以下方式之一删除其中一个配对：

delete from the_table
where (least(a,b), greatest(a,b)) in (
                select least(a,b), greatest(a,b)
                from the_table
                group by least(a,b), greatest(a,b)
                having count(*) > 1);

（未经过测试！）