如何设置Spark Kmeans的初始中心

Question

如何设置Spark Kmeans的初始中心

apache-sparkmachine-learningcluster-analysisk-meansapache-spark-mllib

3

我正在使用Spark ML来运行Kmeans。我有一堆数据和三个现有的中心点，例如这三个中心点是：[1.0,1.0,1.0],[5.0,5.0,5.0],[9.0,9.0,9.0]。那么我该如何指示Kmeans中心点为上述三个向量呢？我看到Kmean对象有一个种子参数，但是种子参数是长整型而不是数组。那么我该如何告诉Spark Kmeans仅使用现有的中心点进行聚类呢？

或者说，我不理解Spark Kmeans中种子的含义，我认为种子应该是一个向量数组，表示在运行聚类之前指定的中心点。

- Jack

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- desertnaut · Accepted Answer

实际上，seed并不是用于“种子”（初始化）聚类中心的意思，而仅仅是用于设置随机数种子 - 你可以在 Scala 和 Python 的文档中确认这一点。

据我所知，目前（Spark 2.1）没有一种方法可以为 Spark ML 中的 k-means 提供初始聚类中心（有关 Spark MLlib 的信息请参见这个答案）。而根据文档，initMode参数：

可以是“随机”（random），以选择随机点作为初始聚类中心，或“k-means ||”，使用 k-means++ 的并行变体来初始化聚类中心。