我遇到了一个真正的问题。我需要对包含大约32列的500万个向量进行一些Kmeans聚类。
我尝试了需要Linux系统的Mahout,但我使用的是Windows系统,因此无法使用Linux操作系统或任何模拟器。
有人能推荐一个可扩展到500万个向量且可以快速收敛的KMeans聚类算法吗?
我已经测试过一些算法,但它们无法扩展,这意味着它们很慢,需要很长时间才能完成。
谢谢
我遇到了一个真正的问题。我需要对包含大约32列的500万个向量进行一些Kmeans聚类。
我尝试了需要Linux系统的Mahout,但我使用的是Windows系统,因此无法使用Linux操作系统或任何模拟器。
有人能推荐一个可扩展到500万个向量且可以快速收敛的KMeans聚类算法吗?
我已经测试过一些算法,但它们无法扩展,这意味着它们很慢,需要很长时间才能完成。
谢谢
http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Single-Node_Cluster)
http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Multi-Node_Cluster)