sklearn聚类：在大数据集上确定最佳聚类数量的最快方法

Question

4

我使用Python中的scikit-learn库中的KMeans算法和silhouette_score来计算聚类，但是在样本数量超过10,000并且有超过1,000个簇的情况下，计算silhouette_score非常缓慢。

- C-Jay

3个回答

3

最常用的寻找聚类数量的方法是肘部曲线法。但是为了绘制图形，需要多次运行KMeans算法。https://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set 维基页面提到了一些确定簇数的常见方法。

- Trishansh Bhardwaj

另外，您可以使用不需要聚类数量作为输入的算法。DBSCAN或HDBSCAN应该能够很好地适应您的数据集大小。 - rth

有没有一种自动使用肘部曲线方法找到聚类数量的方法？ - C-Jay

据我理解，一个程序应该能够根据肘部曲线启发式方法提供聚类数量。 - Trishansh Bhardwaj

0

- DSBLR

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Has QUIT--Anony-Mousse · Accepted Answer

轮廓系数是一种相对有吸引力的指标，但其时间复杂度为O(n^2)。这意味着，计算轮廓系数比计算k-means聚类要昂贵得多！

此外，这些分数仅是启发式的。它们无法通过任何方式产生“最佳”聚类。它们只是给出关于如何选择k的提示，但很常见的情况是其他k更好！因此，请不要盲目信任这些分数。