我正在使用多线程处理目录中的所有文件,以并行方式处理文件。一切都运行良好,但线程似乎会保持活动状态,因此进程的线程计数会增加,直到达到1K或更多线程,然后抛出 thread.error can't start new thread
错误。我知道这个错误是由于操作系统级别的线程计数限制引起的。
我无法弄清楚导致线程保持活动状态的错误在哪里。有什么想法吗?这是我的代码的最小版本。
class Worker(Thread):
def __init__(self, tasks):
Thread.__init__(self)
self.tasks = tasks
self.daemon = True
self.start()
def run(self):
while True:
func, args, kargs = self.tasks.get()
try:
func(*args, **kargs)
except Exception, e: print e
self.tasks.task_done()
class ThreadPool:
def __init__(self, num_threads):
self.tasks = Queue(num_threads)
for _ in range(num_threads): Worker(self.tasks)
def add_task(self, func, *args, **kargs):
self.tasks.put((func, args, kargs))
def wait_completion(self):
self.tasks.join()
def foo(filename)
pool = ThreadPool(32)
iterable_data = process_file(filename)
for data in iterable_data:
pool.add_task(some_function, data)
pool.wait_completion()
files = os.listdir(directory)
for file in files:
foo(file)
from multiprocessing.pool import ThreadPool
。把线程池移到 foo() 函数外部将解决问题。 - bj0