基本思路是在样本数据上评估聚类得分,通常是簇内距离和簇间距离。这个度量越高,聚类效果就越好,基于这个度量,您可以选择最佳的聚类参数。其中一个指标可以在这里找到 http://alias-i.com/lingpipe/docs/api/com/aliasi/cluster/ClusterScore.html
k
的策略?你需要阅读一本关于k-means或其他资源的书,我相信那里面会有相关内容。http://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set
在使用算法之前,请先了解它。
R
)回答了一个类似的问题:stackoverflow.com/a/15376462/1036500 - Ben