从包含不可哈希元素的Python列表中删除重复元素，同时保持顺序？

Question

从包含不可哈希元素的Python列表中删除重复元素，同时保持顺序？

11

我有一个这样的数据结构：

[
[('A', '1'), ('B', '2')],
[('A', '1'), ('B', '2')],
[('A', '4'), ('C', '5')]
]

我想要获得这个结果:

[
[('A', '1'), ('B', '2')],
[('A', '4'), ('C', '5')]
]

有没有一种好的方法可以在保留所示顺序的同时完成这个操作？

用于复制粘贴的命令：

sample = []
sample.append([('A', '1'), ('B', '2')])
sample.append([('A', '1'), ('B', '2')])
sample.append([('A', '4'), ('C', '5')])

- Legend

重复项是否总是相邻的？ - Cameron

2个回答

5

这里是排序/去重套路的一个保序变体。如果你的项至少可以排序，那么这将为您提供O（n log n）的性能。

def unique(a):
    indices = sorted(range(len(a)), key=a.__getitem__)
    indices = set(next(it) for k, it in 
                  itertools.groupby(indices, key=a.__getitem__))
    return [x for i, x in enumerate(a) if i in indices]

示例（为简单起见，使用可哈希的项）：

>>> a = ['F', 'J', 'B', 'F', 'V', 'A', 'E', 'U', 'B', 'U', 'Z', 'K']
>>> unique(a)
['F', 'J', 'B', 'V', 'A', 'E', 'U', 'Z', 'K']

- Sven Marnach

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Raymond Hettinger · Accepted Answer

这是一个比较有名的问题，早先由一位著名的Pythonista进行了很好的回答：http://code.activestate.com/recipes/52560-remove-duplicates-from-a-sequence/ 如果您可以假设相等的记录是相邻的，那么在itertools文档中有一个配方：

from operator import itemgetter
from itertools import groupby, imap

def unique_justseen(iterable, key=None):
    "List unique elements, preserving order. Remember only the element just seen."
    # unique_justseen('AAAABBBCCDAABBB') --> A B C D A B
    # unique_justseen('ABBCcAD', str.lower) --> A B C A D
    return imap(next, imap(itemgetter(1), groupby(iterable, key)))

如果您只能假定具有可排序元素，这里是使用bisect模块的一种变体。对于具有r个唯一值的n个输入，其搜索步骤的成本为O（n log r）。如果发现新的唯一值，则将其插入“seen”列表，成本为O（r * r）。

from bisect import bisect_left, insort

def dedup(seq):
    'Remove duplicates. Preserve order first seen.  Assume orderable, but not hashable elements'
    result = []
    seen = []
    for x in seq:
        i = bisect_left(seen, x)
        if i == len(seen) or seen[i] != x:
            seen.insert(i, x)
            result.append(x)
    return result