Python中与Java的Mahout相当的库

25

1
你可以使用Jython或JPype将Mahout与Python代码集成。请参阅我的类似问题: http://stackoverflow.com/questions/7491953/is-there-any-python-libraries-for-mahout - Matt Alcock
Python在处理大型数据集时性能会变得非常慢,因此不被认为是一个好的选择。 - Swapnil
5个回答

21

5
请注意:目前的scikit-learn实现尚不能利用Hadoop集群进行分布式计算。但是,如果使用稀疏表示和/或memmap数组,它相当可扩展,可以解决中等规模的问题(例如线性模型的数十万个样本和特征)。 - ogrisel

3

Spark MLlib被推荐使用。它是可扩展的机器学习库,可以从HDFS读取数据,并且当然可以在Spark平台上运行。

您可以通过PySpark访问它(请参见编程指南中的Python示例)。


1

pysuggestSUGGEST的Python封装,它是一个Top-N推荐引擎,实现了多种协同过滤推荐算法。


1

从我听到的消息来看,Orange据说相当不错,但我个人从未使用过。PyML 也值得一看。此外,Monte


1
橙色算法在可扩展性方面远远称不上优秀。几乎所有的算法都是缓慢的批处理过程,由于该项目的学术导向,他们没有意图改进这一点。遗憾的是,Python中真的没有Mahout的替代品。 - Cerin
3
@Chris:scikit-learn可能还没有达到那个水平,但是它的目标是可扩展并避免学术项目的陷阱。我们已经为一些标准问题实现的某些方法相当可扩展。 - Gael Varoquaux

0

一个有趣的库是crab

截至本篇文章,该库仅具有协同过滤算法的稳定实现:基于用户和基于项目。

包括SVD实现,但它是实验性的,基于内容的算法在路线图上。

一定要去看看!


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接