用多进程并发地填充一个字典

Question

用多进程并发地填充一个字典

16

我得到了非常好的答案，我实施了标为正确的答案中提到的解决方案。

def read_energies(motif):
    os.chdir("blabla/working_directory")
    complx_ener = pd.DataFrame()
    # complex function to fill that dataframe 
    lig_ener = pd.DataFrame()
    # complex function to fill that dataframe 
    return motif, complx_ener, lig_ener

COMPLEX_ENERGIS = {}
LIGAND_ENERGIES = {}
p = multiprocessing.Pool(processes=CPU)
for x in p.imap_unordered(read_energies, peptide_kd.keys()):
    COMPLEX_ENERGIS[x[0]] = x[1]
    LIGAND_ENERGIES[x[0]] = x[2]

然而，这个解决方案所需的时间与我只是遍历peptide_kd.keys()并逐个填充DataFrames的时间相同。为什么会这样？有没有一种方法可以并行填充所需的字典并实际获得速度提升？我正在48核HPC上运行它。

- Gábor Erdős

使用多进程的开销可能比进行复杂函数处理的开销更大。也许让read_energies()每次处理可变数量的数据框，可以使您调整到优势点。 - martineau

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Mike McKerns · Accepted Answer

你在启动每个进程和跨多个进程复制pandas.DataFrame等数据时产生了大量开销。如果你只需要并行填充一个字典，我建议使用共享内存字典。如果没有键被覆盖，那么这很容易，你不必担心锁问题。

(请注意，以下示例中我使用的是multiprocess，它是multiprocessing的一个分支 - 但仅为了从解释器演示，否则您必须从__main__运行以下内容.)

>>> from multiprocess import Process, Manager
>>> 
>>> def f(d, x):
...   d[x] = x**2
... 
>>> manager = Manager()
>>> d = manager.dict()
>>> job = [Process(target=f, args=(d, i)) for i in range(5)]
>>> _ = [p.start() for p in job]
>>> _ = [p.join() for p in job]
>>> print d
{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

这个方案没有对 dict 进行复制来在进程之间共享，从而减少了一部分开销。对于像 pandas.DataFrame 这样的大型对象，与简单操作如 x**2 的成本相比，它可能是显著的。同样，生成一个 Process 可能需要时间，您可以通过使用线程（即来自 multiprocess.dummy 而不是 multiprocess）来加速上述过程（对于轻量级对象），甚至可能更快，无论是使用您最初发布的解决方案还是我上面的解决方案。

如果您确实需要共享 DataFrames（正如您的代码所暗示的而不是问题所询问的），您可以通过创建共享内存 numpy.ndarray 来完成。