簇内距离与簇间距离

5
我已经找到了有关簇内距离和簇间距离的公式,但我不确定自己是否理解它们的工作原理。

enter image description here

簇间距离

enter image description here

上述公式中应该有一个平方根符号吗?

聚类内和聚类间:

enter image description here enter image description here

为什么从N+1开始有j指数?而不是从1到N2?

哪个是正确的?还是它们有等价性?或者我应该选择质心之间的距离来计算簇间距离?这似乎相当简单。那么簇内距离呢?

我发现维基百科公式http://en.wikipedia.org/wiki/Cluster_analysis#Internal_evaluation更难理解。

我需要计算这些距离,以便适当地将颜色分组,以创建减少的调色板,因此我认为这些距离越精确,分组就越精确(用公式代替簇间距离的质心距离)。向量是三维的(RGB分量)。

1个回答

2
许多算法并不真正使用“距离”概念。例如,k-means算法最小化方差,这就是您在此处看到的平方和。现在,平方和实际上是欧几里得距离的平方,因此可以说该算法也试图最小化欧几里得距离;但是,该算法的“自然”公式并不使用欧几里得距离,而是平方和。如果我没有弄错的话,Ward聚类也是如此,您应该使用方差而不是欧几里得距离来计算它。
请注意,如果您最小化z^2,并且z不能为负数,则您也最小化了z。
另请参见:https://stats.stackexchange.com/questions/95793/is-there-an-advantage-to-squaring-dissimilarities-when-using-ward-clustering

我正在尝试实现BIRCH算法,并找到了这个.ppt,其中提到我必须通过计算欧几里得距离、曼哈顿距离和上述距离来找到树中最接近的条目。 - Tanatos Daniel

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接