如何在Python中同时使用单个可迭代对象的多个迭代器?

4

我希望能将可迭代对象中的所有元素进行组合比较。下面这个可以复现的例子只是模拟了一个普通列表的功能,但展示了我的问题。在这个由["A","B","C","D"]组成的列表中,我希望获得以下16行输出,即每个元素与其他元素的组合。一个包含100个元素的列表应该生成10,000行。

A A True
A B False
A C False
... 10 more lines ...
D B False
D C False
D D True

以下代码看起来应该能够完成任务。
class C():
    def __init__(self):
        self.stuff = ["A","B","C","D"]
    def __iter__(self):
        self.idx = 0
        return self
    def __next__(self):
        self.idx += 1
        if self.idx > len(self.stuff):
            raise StopIteration
        else:
            return self.stuff[self.idx - 1]

thing = C()
for x in thing:
    for y in thing:
        print(x, y, x==y)

但是在完成y循环后,x循环似乎也已经完成了,尽管它只使用了可迭代对象中的第一个项目。

A A True
A B False
A C False
A D False

经过长时间的搜索,我最终尝试了以下代码,希望itertools.tee能够让我在相同数据上获得两个独立的迭代器:

import itertools
thing = C()
thing_one, thing_two = itertools.tee(thing)
for x in thing_one:
    for y in thing_two:
        print(x, y, x==y)

但我得到了与之前相同的输出结果。

该对象表示的是一个目录和文件结构的模型,其中包含不同数量和深度的文件和子目录。它具有嵌套链接到数千个成员,并且像此示例一样正确地迭代它们一次。但它还会在需要进行比较时在其许多内部对象中进行昂贵的处理,如果必须在迭代之前完全复制它,将导致工作量加倍。如果可能的话,我真的想使用多个迭代器,指向一个带有所有数据的单个对象。


编辑回答:所有答案都指出问题代码的关键缺陷是无法独立处理多个调用者的单个内部self.idx变量。接受的答案是适用于我的真实类(在这个可重现的示例中过于简化),另一个答案为像这里呈现的简单数据结构提供了一种简单而优雅的解决方案。


你的对象是可索引的吗?它是否有一个__len__方法? - Eric Ed Lohmar
这实际上是一个嵌套目录和文件结构的表示,因此由于多个级别,我没有一个单一的索引来访问所有内容。但是,我确实有节点的总数,因此我可以轻松编写一个 len 函数。 - mightypile
它有多深嵌套?是否总是只有两个级别? - Eric Ed Lohmar
孩子的数量是否始终对每个父母相同,还是会有变化?或者说,这个数量可以动态地找到吗? - Eric Ed Lohmar
总结一下我的之前的问题,有没有办法在range上使用嵌套的for循环,并将结果数字用作索引?类似这样:for x in range(len(obj)): for y in range(len(obj)): print(obj[x] == obj[y]) - Eric Ed Lohmar
{btsdaf} - mightypile
2个回答

4
实际上,无法创建一个既是容器类又是迭代器的类。容器不应该知道迭代器的状态,而迭代器也不需要知道容器的内容,它只需要知道哪个对象是相应的容器以及“在哪里”。如果混合使用迭代器和容器,则不同的迭代器将共享彼此的状态(在您的情况下是self.idx),这将不会给出正确的结果(它们读取并修改相同的变量)。
这就是为什么所有内置类型都有一个单独的迭代器类(甚至一些还有一个反向迭代器类)的原因:
>>> l = [1, 2, 3]
>>> iter(l)
<list_iterator at 0x15e360c86d8>
>>> reversed(l)
<list_reverseiterator at 0x15e360a5940>

>>> t = (1, 2, 3)
>>> iter(t)
<tuple_iterator at 0x15e363fb320>

>>> s = '123'
>>> iter(s)
<str_iterator at 0x15e363fb438>

基本上,您可以在__iter__中返回iter(self.stuff)并完全删除__next__,因为list_iterator知道如何在列表上进行迭代。
class C:
    def __init__(self):
        self.stuff = ["A","B","C","D"]
    def __iter__(self):
        return iter(self.stuff)

thing = C()
for x in thing:
    for y in thing:
        print(x, y, x==y)

打印了16行,正如预期的一样。

如果您的目标是创建自己的迭代器类,则需要两个类(或3个类,如果您想自己实现反向迭代器)。

class C:
    def __init__(self):
        self.stuff = ["A","B","C","D"]
    def __iter__(self):
        return C_iterator(self)
    def __reversed__(self):
        return C_reversed_iterator(self)

class C_iterator:
    def __init__(self, parent):
        self.idx = 0
        self.parent = parent
    def __iter__(self):
        return self
    def __next__(self):
        self.idx += 1
        if self.idx > len(self.parent.stuff):
            raise StopIteration
        else:
            return self.parent.stuff[self.idx - 1]

thing = C()
for x in thing:
    for y in thing:
        print(x, y, x==y)

同样有效。

为了完整起见,这里是反向迭代器的一个可能实现:

class C_reversed_iterator:
    def __init__(self, parent):
        self.parent = parent
        self.idx = len(parent.stuff) + 1
    def __iter__(self):
        return self
    def __next__(self):
        self.idx -= 1
        if self.idx <= 0:
            raise StopIteration
        else:
            return self.parent.stuff[self.idx - 1]

thing = C()
for x in reversed(thing):
    for y in reversed(thing):
        print(x, y, x==y)

如果不想定义自己的迭代器,可以使用生成器。另一种方法已经在其他答案中展示:

class C:
    def __init__(self):
        self.stuff = ["A","B","C","D"]
    def __iter__(self):
        yield from self.stuff
    def __reversed__(self):
        yield from self.stuff[::-1]

或者明确地委派给一个生成器函数(实际上与上面的方法等价,但可能更清楚地表明产生了一个新对象):
def C_iterator(obj):
    for item in obj.stuff:
        yield item

def C_reverse_iterator(obj):
    for item in obj.stuff[::-1]:
        yield item

class C:
    def __init__(self):
        self.stuff = ["A","B","C","D"]
    def __iter__(self):
        return C_iterator(self)
    def __reversed__(self):
        return C_reverse_iterator(self)

注意:您不必实现 __reversed__ 迭代器。这只是答案的附加“功能”。

我几乎可以确定我需要实现自己的迭代器,因为我的真实世界类需要依次迭代多个列表,对调用者不透明。虽然我还在学习,但如果像yield这样的生成器可以处理我的情况,我会感到惊讶。这个答案涵盖了很多内容,帮助我达到了我需要的目标。干杯! - mightypile
2
@mightypile:你说要依次迭代多个列表?嗯... - ShadowRanger

1
你的__iter__函数完全有问题。它并没有在每次调用时创建一个新的迭代器,而是仅仅重置了一些self上的状态并返回了self。这意味着你实际上不能在你的对象上拥有超过一个迭代器,而且在另一个循环正在进行的时候调用__iter__会干扰现有的循环。
你需要真正地创建一个新对象。最简单的方法是使用yield语法编写生成器函数。生成器函数将自动每次返回一个新的迭代器对象:
class C(object):
    def __init__(self):
        self.stuff = ['A', 'B', 'C', 'D']
    def __iter__(self):
        for thing in self.stuff:
            yield thing

1
通用规则:如果你定义了 __next__,那么 __iter__ 必须 是恒等函数(什么也不做,只是 return self )。如果不是,那么代码是 错误的。并且通常情况下,你不需要手动实现一个迭代器类,而是可以像这里演示的那样将 __iter__ 设为生成器函数,并完全避免实现 __next__。生成器函数方法比为你的类型定义单独的迭代器类更快(让 Python 管理生成器状态可让其更高效地完成状态管理),并且更加简单。 - ShadowRanger
yield方向很有帮助,通用规则也是如此。我需要弄清楚它们是否适用于我的使用场景,即在对象内遍历多个层次结构。谢谢! - mightypile

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接