无法应用MapReduce模型的机器学习算法

Question

无法应用MapReduce模型的机器学习算法

6

"Map-Reduce for Machine Learning on Multicore"这篇论文展示了10种可以从Map Reduce模型中受益的机器学习算法。关键点是“适合统计查询模型的任何算法都可以写成某种‘总和形式’”，而这些可以用总和形式表达的算法可以应用Map Reduce编程模型。

那些不能表示为总和形式的算法并不意味着它们不能应用Map Reduce模型。能否指出任何特定的机器学习算法，无法通过Map Reduce模型加速？

- user1841342

2

你可以将每个算法适配到MapReduce中，但这并不意味着它们能够高效地工作。 - Thomas Jungblut

是的，我知道我们可以将MapReduce应用于每个算法，但这并不意味着我们可以加速某些算法的性能。我上面提到的论文列出了10种算法，并展示了如何将原始算法转换为所谓的“求和形式”。然后，我们可以将MapReduce技术应用于求和形式。我想知道哪些算法无法从MapReduce模型中受益。 - user1841342

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- greeness · Accepted Answer

MapReduce在数据存在计算依赖关系时无法工作。这一限制使得难以表示基于结构化模型的算法。

因此，在面对大规模问题时，我们经常放弃丰富的结构化模型，而选择过于简单的方法，以适应MapReduce抽象2。

在机器学习社区中，许多算法在学习和推理过程中都会迭代地转换参数，例如置信传播、最大期望算法、梯度下降和吉布斯采样。这些算法会迭代地优化一组参数，直到满足某个终止条件2。

如果每次迭代都调用MapReduce，是的，我认为仍然可以加速计算。关键在于我们需要一个更好的抽象框架，以便能够接受数据的图形结构，表达复杂的调度或自动评估终止2。

顺便提一下，Graphlab 是受上述原因激励的替代方案之一2。