Scala 2.9并行集合背后的工作原理是什么？

Question

Scala 2.9并行集合背后的工作原理是什么？

scalaparallel-processingscala-collections

28

Scala 2.9引入了并行集合，它们对某些任务来说是非常好的工具。然而，它们的内部工作原理是什么，我能够影响其行为/配置吗？

它们使用什么方法来确定最佳线程数？如果我不满意结果，是否有任何配置参数可以调整？

我不仅对实际创建的线程数量感兴趣，还对实际工作在这些线程之间如何分配感兴趣。结果如何收集以及幕后发生了多少魔术。Scala是否会测试集合是否足够大以从并行处理中受益？

- Steffen

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- oxbow_lakes · Accepted Answer

简而言之，您的操作并行化有两个正交方面：

1.将集合分成块的程度（即块的大小）用于可并行化操作（例如map或filter） 2.用于执行并行任务的基础fork-join池中使用的线程数

对于第2点，池本身管理此操作，它在运行时发现“理想”的并行级别（请参见java.lang.Runtime.getRuntime.availableProcessors）

对于第1点，这是一个单独的问题，scala并行集合API通过工作窃取（自适应调度）的概念来解决这个问题。也就是说，当完成特定的工作时，工作者将尝试从其他工作队列中窃取工作。如果没有可用的工作，则表明所有处理器都非常繁忙，因此应该采取更大的工作量。

Aleksandar Prokopec实现了该库，并在今年的ScalaDays上发表了一篇演讲，该演讲不久将在线上发布。他还在ScalaDays2010上发表了一篇很棒的演讲，其中详细描述了如何拆分和重新连接操作（有一些不明显的问题和一些聪明的技巧！）。 PDF描述并行集合API提供了更全面的答案。