从数据表中删除所有重复行的最有效方法是什么？

Question

从数据表中删除所有重复行的最有效方法是什么？

7

我有一张表格:

| foo | bar |
+-----+-----+
| a   | abc |
| b   | def |
| c   | ghi |
| d   | jkl |
| a   | mno |
| e   | pqr |
| c   | stu |
| f   | vwx |

我想删除包含重复的 foo 列的所有行，使表格看起来像这样:

| foo | bar |
+-----+-----+
| b   | def |
| d   | jkl |
| e   | pqr |
| f   | vwx |

什么是最高效的方法来完成这个任务？

- Andrew Shulgin

2个回答

8

使用 EXISTS：

DELETE a
  FROM TableName a
 WHERE EXISTS (SELECT NULL
                 FROM TableName b
                WHERE b.foo = a.foo
             GROUP BY b.foo
               HAVING COUNT(*) > 1)

使用 IN：

DELETE a
  FROM TableName a
 WHERE a.foo IN (SELECT b.foo
                   FROM TableName b
               GROUP BY b.foo
                 HAVING COUNT(*) > 1)

- OMG Ponies

如果我没错的话，你在这里编写的 exists 版本比 in 版本快得多。考虑到这一点，是否有任何理由使用 in 版本？ - usumoio

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- John Woo · Accepted Answer

您可以使用LEFT JOIN从返回仅包含唯一foo的子查询中加入表格。未在子查询中匹配的行将被删除，如下所示：

DELETE  a
FROM    TableName a
        LEFT JOIN
        (
            SELECT  foo
            FROM    TableName
            GROUP   BY Foo
            HAVING  COUNT(*) = 1
        ) b ON a.Foo = b.Foo
WHERE   b.Foo IS NULL

SQLFiddle演示

为了更快的性能，在 Foo 列上添加索引。

ALTER TABLE tableName ADD INDEX(foo)