如何在ClickHouse中查找重复记录

3
我想知道如何在clickhouse的一个表中找到重复的数据条目。我正在研究合并树表,并且已经对我的表进行了优化语句,但这并没有解决问题。重复的条目仍然存在。最好有一种通用的策略,而不是引用各个列名。由于我正在处理非常大的表格,所以我只想看到重复的条目。
1个回答

8
直截了当的方法是运行这个查询。
SELECT 
    *, 
    count() AS cnt
FROM myDB.myTable
GROUP BY *
HAVING cnt > 1
ORDER BY date ASC

如果查询结果太大,您可以将其分成几个部分运行。

SELECT 
    *,
    count() AS cnt
FROM myDB.myTable
WHERE (date >= '2020-08-01') AND (date < '2020-09-01')
GROUP BY *
HAVING cnt > 1
ORDER BY date ASC

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接