有没有任何数据挖掘库可以使用(或者可被使用于)MPI(Massage Passing Interface)?我正在寻找类似于Apache Mahout的东西,但可以轻松集成到MPI环境中。
我想要使用MPI的原因是其配置(与Hadoop相比)更加容易。 在数据挖掘场景中使用MPI是否有意义?
我想要使用MPI的原因是其配置(与Hadoop相比)更加容易。 在数据挖掘场景中使用MPI是否有意义?
然而:
还有一些类似于MPI的东西,例如Apache Hama。它基于消息,但是通过屏障同步进行批量处理。在发送之前,可能也会进行一些消息聚合以减少流量。
这个想法没有意义,我认为你有一些误解,MPI更适用于紧密耦合的系统,我99%确定不会将消息发送到外部位置,但是您可以使用MPI更快地处理或分析数据(取决于您的硬件)。我的建议是最好使用其中一个AMQP协议的开源实现,我会说zeromq是您的最佳选择,然后在R或Python中处理所有获取的数据,如果您的数据集非常大,则可以使用MPI。另一个选择是,在连接并运行MPI的不同计算机上调用串行库,只要它们都单独连接到互联网即可。使用MPI调用R和Python非常容易。