87得票5回答
使用Python多进程解决尴尬并行问题

如何使用multiprocessing解决容易并行问题? 容易并行问题通常包括三个基本部分: 读取输入数据(从文件、数据库、tcp连接等读取)。 对输入数据进行计算,其中每个计算都是独立于任何其他计算的。 写入计算结果(写入到文件、数据库、tcp连接等)。 我们可以在两个维度上并行化...

10得票4回答
使用Python和PBS在集群上进行“尴尬并行”编程

我有一个函数(神经网络模型),它可以生成图像。我想使用PBS在一个标准集群上通过Python测试多个参数、方法和不同的输入(意味着需要运行数百次该函数)。 注意:我尝试过ParallelPython、iPython等工具,但从未完全满意,因为我想要更简单的解决方案。集群处于特定配置下,我无法...

9得票4回答
并行化 Pandas apply函数

对于初学者的我来说,我想要并行化一个逐行操作的应用程序。到目前为止,我找到了Parallelize apply after pandas groupby,但是这似乎仅适用于分组的数据框。 我的用例不同:我有一个假期列表,并且针对当前的行/日期,我想找到在假期之前和之后到下个假日的天数。 这...

9得票4回答
JVM(令人尴尬的)并行处理库/工具

我正在寻找一种方法,在集群上轻松运行(编码正确的)尴尬并行的JVM代码,以便我可以使用Clojure + Incanter。过去我使用过Parallel Python来完成这个任务。我们有一个新的PBS集群,管理员将很快设置使用PBS作为后端的IPython节点。这两个系统都使得在集群中运行某...

8得票4回答
在Python中并行运行多个参数的单个函数的最快方法

假设我有一个名为processing的函数,我想同时并行地对多个参数运行相同的函数,而不是一个接一个地顺序运行。 def processing(image_location): image = rasterio.open(image_location) ... ...

7得票1回答
多进程 - 读取大型输入数据 - 程序挂起

我希望能够对从文件中加载的某些输入数据进行并行计算。(由于文件可能非常大,因此我使用了生成器。) 在一定数量的项目上,我的代码运行正常,但超过这个阈值后,程序会挂起(一些工作进程无法结束)。 有什么建议吗?(我正在使用python2.7、8个CPU; 5000行还可以,7500行不行。) ...

7得票3回答
如何在运行尴尬并行作业时避免过载并行文件系统的最佳方法?

我们有一个毫不费力的并行问题——我们运行大量实例的单个程序,每个实例使用不同的数据集;我们只需多次提交带有不同参数的应用程序到批处理队列即可实现。 然而,对于大量作业,不是所有作业都能完成。这似乎不是队列的问题——所有作业都已启动。 问题似乎在于,当应用程序的实例数量很大时,许多作业会在大...