高效地在列表中查找重复项

Question

高效地在列表中查找重复项

pythonalgorithmperformancelisttime-complexity

5

我有以下函数，用于在数组中搜索重复条目，然后返回重复项的列表。我想加快代码的执行速度，是否有更有效率的方式？

代码：

def findDupe(array):
    dupelist = []
    for i in range(len(array)):
        for j in range(len(array)):
            comp1 = array[i]
            comp2 = array[j]
            if comp1 == comp2 and i!=j:
                if comp2 not in dupelist:
                    dupelist.append(comp2)
    return dupelist

- user3476463

2个回答

0

你的列表中的元素类型是什么？

像上面解释的那样，将元素存储在Set中可获得平均复杂度Θ(n)，但需要元素是可散列的（Python中的Set是使用哈希表实现的，请参见https://wiki.python.org/moin/TimeComplexity）。
如果你有一个比较函数，你可以以最坏情况Θ(nlog(n))对列表进行排序，然后将列表中的每个元素与下一个进行比较。
如果你有一个比较函数，你还可以使用（平衡）BST实现一个set，并执行与1相同的操作，从而平均复杂度Θ(nlog(n))（在最坏情况下）。

- Quentin Fortier

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- cs95 · Accepted Answer

这里的想法是在线性时间内完成一次扫描。你可以使用计数器来实现这一点。思路是计算每个元素的数量，然后返回那些被计数多次的元素。

from collections import Counter

def get_duplicates(array):
    c = Counter(array)
    return [k for k in c if c[k] > 1]

上述方法的复杂度是线性的，但需要对输入进行两次操作——首先进行计数（这由Counter构造函数抽象出来），然后在列表推导式中返回非唯一值。可以通过使用一个yield语句并在发现重复项时返回它们来优化此过程。

def get_duplicates(array):
    c = Counter()
    seen = set()
    for i in array: 
        c[i] += 1
        if c[i] > 1 and i not in seen:
            seen.add(i)
            yield i

这将导致必须进行if检查，并增加一个set的空间，但您可以将两个通道减少到一个。