如何优化K-Means算法中的K值

Question

如何优化K-Means算法中的K值

data-miningk-means

5

可能重复：
使用k-means聚类时如何确定K？

如果我不了解数据，如何选择初始的K值？

有人可以帮助我选择K值吗？

谢谢 Navin

- Navin

1

重要的是要认识到聚类没有一种完全原则性的方法。通常，您必须隐含地指定密度。对于k-means算法，您通过簇的数量来指定密度。对于均值漂移算法，您必须选择邻域大小。即使您使用某些标准来选择簇的数量或邻域大小，您仍然选择使用该方法。 - YXD

你可以在CrossValidated上查看clustering标签，可能会找到一些有用的线索。 - chl

精确副本 @ https://dev59.com/J3I-5IYBdhLWcg3wj5JG && http://stackoverflow.com/q/5933970/353278 - Jeff

我已经在此处使用半打方法（使用R）回答了一个类似的问题：stackoverflow.com/a/15376462/1036500 - Ben

2个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- yura · Answer 1

基本思路是在样本数据上评估聚类得分，通常是簇内距离和簇间距离。这个度量越高，聚类效果就越好，基于这个度量，您可以选择最佳的聚类参数。其中一个指标可以在这里找到 http://alias-i.com/lingpipe/docs/api/com/aliasi/cluster/ClusterScore.html

- Felix Kling · Answer 2

说真的，你想知道什么？你想让我们告诉你一些数字吗？还是想要找到寻找最优k的策略？你需要阅读一本关于k-means或其他资源的书，我相信那里面会有相关内容。

维基百科上也有相关介绍：

http://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set

在使用算法之前，请先了解它。