无法启动新线程

4

我正在使用多线程处理目录中的所有文件,以并行方式处理文件。一切都运行良好,但线程似乎会保持活动状态,因此进程的线程计数会增加,直到达到1K或更多线程,然后抛出 thread.error can't start new thread 错误。我知道这个错误是由于操作系统级别的线程计数限制引起的。 我无法弄清楚导致线程保持活动状态的错误在哪里。有什么想法吗?这是我的代码的最小版本。

class Worker(Thread):
    def __init__(self, tasks):
        Thread.__init__(self)
        self.tasks = tasks
        self.daemon = True
        self.start()

def run(self):
    while True:
        func, args, kargs = self.tasks.get()
        try:
            func(*args, **kargs)
        except Exception, e: print e
        self.tasks.task_done()


class ThreadPool:
    def __init__(self, num_threads):
        self.tasks = Queue(num_threads)
        for _ in range(num_threads): Worker(self.tasks)

    def add_task(self, func, *args, **kargs):
        self.tasks.put((func, args, kargs))

    def wait_completion(self):
        self.tasks.join()


def foo(filename)
    pool = ThreadPool(32)
    iterable_data = process_file(filename)

    for data in iterable_data:
        pool.add_task(some_function, data)
    pool.wait_completion()

files = os.listdir(directory)
for file in files:
    foo(file)
1个回答

3
您正在为每个文件启动一个新的具有32个线程的线程池。如果您有大量的文件,那将会有很多线程。并且由于在CPython中,由于全局解释器锁定,每次只能有一个线程执行Python字节码,因此速度不一定很快。
请将ThreadPool的创建移动到foo()函数之外。

3
如果您不需要多个进程(线程对于 I/O 绑定代码很好),那么您也不需要创建自己的线程池:from multiprocessing.pool import ThreadPool。把线程池移到 foo() 函数外部将解决问题。 - bj0
我正在使用线程,因为任务涉及网络调用(HTTP)。在这里使用“多进程”并不能帮助我很多。 - leonsas
@bj0 把池子移到 foo() 外面可以解决问题。请把它作为答案发布,这样我就可以接受了。谢谢! - leonsas
@sazpaz,我没有将它发布为答案,因为Roland在他的回答中提到了它,他只是附加了很多额外的信息,但现在似乎已经删除了。 - bj0

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接