KMeans聚类用于超过500万个向量的情况

Question

4

我遇到了一个真正的问题。我需要对包含大约32列的500万个向量进行一些Kmeans聚类。

我尝试了需要Linux系统的Mahout，但我使用的是Windows系统，因此无法使用Linux操作系统或任何模拟器。

有人能推荐一个可扩展到500万个向量且可以快速收敛的KMeans聚类算法吗？

我已经测试过一些算法，但它们无法扩展，这意味着它们很慢，需要很长时间才能完成。

谢谢

- user349026

有多少个簇？欧氏距离还是自定义距离度量？ - denis

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user349026 · Accepted Answer

好的，那么想要对大规模数据进行聚类的人，唯一的方法就是使用Mahout。它需要在Linux平台上运行。因此，我不得不使用虚拟机，在其中安装了Ubuntu并使用了Mahout。设置Mahout是一个繁琐的过程，但我使用的两个链接如下。