Django仅选择具有重复字段值的行

Question

Django仅选择具有重复字段值的行

140

假设我们在Django中定义了一个模型，如下所示：

class Literal:
    name = models.CharField(...)
    ...

名称字段不是唯一的，因此可能有重复的值。我需要完成以下任务：从模型中选择所有具有名称字段的至少一个重复值的行。

我知道如何使用普通 SQL 完成它（也许不是最好的解决方案）:

select * from literal where name IN (
    select name from literal group by name having count((name)) > 1
);

那么，使用Django ORM选择它是可能的吗？还是使用更好的SQL解决方案？

- dragoon

6个回答

64

这篇文章被拒绝作为编辑。所以，这里它以一种更好的回答的形式呈现。

dups = (
    Literal.objects.values('name')
    .annotate(count=Count('id'))
    .values('name')
    .order_by()
    .filter(count__gt=1)
)

这将返回一个带有所有重复名称的 ValuesQuerySet。但是，您可以通过将其反馈到另一个查询中来构建一个常规的 QuerySet。Django ORM 足够智能以将它们合并为单个查询：

Literal.objects.filter(name__in=dups)

在annotate调用之后再次调用.values('name')看起来有点奇怪。如果没有这个语句，子查询就会失败。额外的values语句会欺骗ORM只选择子查询中的名称列。

- Piper Merriam

很棒的技巧，不幸的是，这只适用于使用一个值的情况（例如，如果同时使用“name”和“phone”，最后一部分将无法工作）。 - gdvalderrama

2

.order_by()有什么作用？ - stefanfoulis

4

它清除了任何现有的排序。如果您有模型集排序，则这将成为 SQL 中 GROUP BY 子句的一部分，并且会破坏它。当使用子查询进行游戏时发现了这一点（在其中通过 .values() 进行非常类似的分组）。 - Oli

12

尝试使用聚合

Literal.objects.values('name').annotate(name_count=Count('name')).exclude(name_count=1)

- JamesO

好的，这给出了正确的名称列表，但是是否可以同时选择ID和其他字段呢？ - dragoon

@dragoon - 不过克里斯·普拉特在他的回答中提到了另一种选择。 - JamesO

7

如果您使用的是PostgreSQL，可以按照以下方式操作：

from django.contrib.postgres.aggregates import ArrayAgg
from django.db.models import Func, Value

duplicate_ids = (Literal.objects.values('name')
                 .annotate(ids=ArrayAgg('id'))
                 .annotate(c=Func('ids', Value(1), function='array_length'))
                 .filter(c__gt=1)
                 .annotate(ids=Func('ids', function='unnest'))
                 .values_list('ids', flat=True))

这将导致一个相当简单的SQL查询：

SELECT unnest(ARRAY_AGG("app_literal"."id")) AS "ids"
FROM "app_literal"
GROUP BY "app_literal"."name"
HAVING array_length(ARRAY_AGG("app_literal"."id"), 1) > 1

- Eugene Pakhomov

1

我尝试了这个，但是 Python 代码报错：FieldError: Expression contains mixed types: ArrayField, IntegerField. You must set output_field.。然而，SQL 查询像预期的那样工作（Django 3.2）。 - oglop

非常好用（Django 2.2）。此外，您不需要使用array_length注释，而是可以通过ids__len进行过滤-https://docs.djangoproject.com/en/dev/ref/contrib/postgres/fields/#len - a regular fellow

2

好的，由于某些原因，以上方法都没有生效，它总是返回<MultilingualQuerySet []>。我使用以下更易理解但不太优雅的解决方案：

dupes = []
uniques = []

dupes_query = MyModel.objects.values_list('field', flat=True)

for dupe in set(dupes_query):
    if not dupe in uniques:
        uniques.append(dupe)
    else:
        dupes.append(dupe)

print(set(dupes))

- Özer

0

如果你只想要结果中的名称列表而不是对象，你可以使用以下查询。

repeated_names = Literal.objects.values('name').annotate(Count('id')).order_by().filter(id__count__gt=1).values_list('name', flat='true')

- user2959723

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Chris Pratt · Accepted Answer

尝试：

from django.db.models import Count
Literal.objects.values('name')
               .annotate(Count('id')) 
               .order_by()
               .filter(id__count__gt=1)

这是在Django中能够得到的最接近的结果。问题是这将返回一个ValuesQuerySet，只包含name和count。但是，您可以通过将其反馈到另一个查询中来使用它构建常规的QuerySet：

dupes = Literal.objects.values('name')
                       .annotate(Count('id'))
                       .order_by()
                       .filter(id__count__gt=1)
Literal.objects.filter(name__in=[item['name'] for item in dupes])