处理多进程池中工作进程死亡问题

Question

处理多进程池中工作进程死亡问题

8

我有一个简单的服务器：

from multiprocessing import Pool, TimeoutError
import time
import os


if __name__ == '__main__':
    # start worker processes
    pool = Pool(processes=1)

    while True:
        # evaluate "os.getpid()" asynchronously
        res = pool.apply_async(os.getpid, ())  # runs in *only* one process
        try:
            print(res.get(timeout=1))             # prints the PID of that process
        except TimeoutError:
            print('worker timed out')

        time.sleep(5)

    pool.close()
    print("Now the pool is closed and no longer available")
    pool.join()
    print("Done")

如果我运行这个，我会得到类似于这样的东西：

47292
47292

当服务器正在运行时，我执行了 kill 47292 命令。这时会启动一个新的工作进程，但服务器的输出内容为：

47292
47292
worker timed out
worker timed out
worker timed out

线程池仍在尝试向旧的工作进程发送请求。

我已经在服务器和工作进程中进行了一些信号捕获方面的工作，虽然能够获得稍微更好的行为，但服务器似乎在关闭时仍在等待死亡的子进程（即 pool.join() 永远不会结束），而这种情况发生在工作进程被杀死后。

如何正确处理工作进程的死亡？

如果没有任何一个工作进程死亡，从服务器进程优雅地关闭工作进程似乎是有效的。

（在Python 3.4.4上运行，但如果有帮助的话我可以升级。）

更新：有趣的是，如果使用 processes=2 创建线程池，并且您杀死一个工作进程，等待几秒钟再杀死另一个工作进程，则此工作超时问题不会发生。但是，如果您快速连续杀死两个工作进程，则“工作超时”问题将再次出现。

也许相关的是当问题发生时，杀死服务器进程将使工作进程继续运行。

- ivo

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Thomas Moreau · Accepted Answer

这种行为来自于的设计。当你杀死一个工作进程时，你可能会杀死持有锁的进程。当这个进程在持有锁的时候被杀死，没有其他进程能够再读取了，这将破坏，因为它无法再与其工作进程通信。
因此，实际上没有办法杀死一个工作进程，并确保你的在之后仍然正常工作，因为你可能会陷入死锁状态。不处理工作进程的死亡。你可以尝试使用代替（具有稍微不同的API），它默认处理进程失败。当一个进程在中死亡时，整个执行器都会关闭，并返回一个错误。

请注意，此实现中还存在其他死锁问题，应在 loky 中修复。（免责声明：我是这个库的维护者）。此外，loky 允许您使用 ReusablePoolExecutor 和方法 _resize 调整现有的 executor 的大小。如果您感兴趣，让我知道，我可以提供一些帮助来开始使用此包。（我意识到我们的文档还需要一些工作...0_0）