改进k-means聚类

13

我的计算机视觉课程笔记中提到,如果我们知道聚类的标准差,可以改善k-means聚类算法的性能。

我的想法是,我们可以通过基于直方图的分割先使用标准差来得出更好的初始估计。你认为呢?感谢任何帮助!

1个回答

16

你的讲师可能有Veenman等人在2002年发表的论文在脑海中。基本思想是设定每个簇内允许的最大方差。你从与数据点数量相同的簇开始,然后通过以下方式“演化”簇:

  • 如果合并相邻簇后的方差低于阈值,则合并相邻簇
  • 如果某个簇的方差超过阈值,则隔离“远离”的元素
  • 或者将某些元素移动到相邻簇中,以减小平方误差和

(这种演化作为全局优化过程,在防止初始簇均值赋值中可能出现的不良后果方面非常有效)

总之,如果您知道方差,就知道簇应该有多种变化,因此更容易检测异常值(通常应放入单独的簇中)。


非常好的回答!最后一个问题-异常值通常会被单独分成一个新的聚类,对吧?顺便说一句,哈哈@ang mo--我以前去过新加坡,知道“ang mo”的意思! :) - Dhruv Gairola
是的:使用隔离运算符将异常值放入单独的聚类中(或它们在第一次合并时根本不会被合并)。 - ang mo

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接