大型Pandas数据框并行处理

Question

大型Pandas数据框并行处理

14

我正在访问一个非常大的Pandas数据框作为全局变量。这个变量通过joblib并行访问。

例如。

df = db.query("select id, a_lot_of_data from table")

def process(id):
    temp_df = df.loc[id]
    temp_df.apply(another_function)

Parallel(n_jobs=8)(delayed(process)(id) for id in df['id'].to_list())

以这种方式访问原始df似乎会在进程之间复制数据。这是意外的，因为原始df在任何子进程中都没有被改变？（还是有改变吗？）

- autodidacticon

2个回答

3

在Python中，通常采用分离的进程来进行多进程处理，因此进程之间不共享内存。如果您可以让事情与np.memmap一起工作，并按照joblib文档中稍微向下提到的内容操作，那么有一个潜在的解决方法，尽管将数据转储到磁盘上显然会增加一些额外的开销：https://pythonhosted.org/joblib/parallel.html#working-with-numerical-data-in-shared-memory-memmaping

- Randy

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Kevin S · Accepted Answer

整个 DataFrame 需要被 pickle 和 unpickle，以供 joblib 创建的每个进程使用。在实践中，这非常缓慢，还需要多次内存。一个解决方案是将数据存储在 HDF 中（df.to_hdf）使用表格式。然后可以使用 select 选择子集进行进一步处理。在实践中，这对交互式使用来说速度太慢了。它也非常复杂，您的工作人员将需要存储他们的工作，以便在最后一步中合并。另一个选择是探索带有 target='parallel' 的 numba.vectorize。这将需要使用 NumPy 数组而不是 Pandas 对象，因此也有一些复杂成本。从长远来看，希望 dask 能够为 Pandas 带来并行执行，但这不是要期望的事情。