我正在阅读关于k-means聚类和k-medoid聚类之间的差异。
据说在k-medoid算法中使用成对距离测量有优势,而不是我们在k-means中找到的更为熟悉的平方欧几里得距离类型度量来评估方差。显然,这种不同的距离度量方式可以降低噪声和异常值。
我看到了这个说法,但我还没有看到任何关于这个说法背后数学原理的好的推理。
成对距离在k-medoid中为什么更常用?更确切地说,缺少平方项如何使k-medoids具有与取中值概念相关联的理想属性?
我正在阅读关于k-means聚类和k-medoid聚类之间的差异。
据说在k-medoid算法中使用成对距离测量有优势,而不是我们在k-means中找到的更为熟悉的平方欧几里得距离类型度量来评估方差。显然,这种不同的距离度量方式可以降低噪声和异常值。
我看到了这个说法,但我还没有看到任何关于这个说法背后数学原理的好的推理。
成对距离在k-medoid中为什么更常用?更确切地说,缺少平方项如何使k-medoids具有与取中值概念相关联的理想属性?
首先,你可以使用k-medoid与任何相似性度量。但是,k-means可能无法收敛 - 它必须仅与与平均数一致的距离一起使用。例如,不能使用绝对皮尔逊相关性与k-means一起使用,但它与k-medoid很好地配合。
其次,由k-medoids使用的medoid大致相当于中位数(事实上,也有k-中位数,它类似于曼哈顿距离下的k-means)。如果您查阅关于中位数的文献,您将看到许多解释和例子,说明中位数比算术平均数更具有鲁棒性。本质上,这些解释和例子也适用于medoid。它是一个比k-means中使用的平均值更加鲁棒的代表点估计。
考虑这个一维示例:
[1, 2, 3, 4, 100000]
这组数据的中位数和中心点(medoid)都是3。平均值为20002。
你认为哪个更能代表这组数据?平均值具有较低的平方误差,但假设此数据集中可能存在测量误差...
在统计学中,技术上使用“破坏点”(breakdown point)概念。中位数的破坏点为50%(即一半数据点可能不正确,结果仍不受影响),而平均值的破坏点为0(即单个大观察值可能导致错误估计)。
我没有证明,但我认为中心点与中位数具有类似的破坏点。
这是主要缺点。通常,PAM的运行时间比k-means长得多。因为它涉及计算所有成对距离,所以复杂度是O(n^2*k*i)
;而k-means的运行时间为O(n*k*i)
,通常情况下,k乘以迭代次数为k*i << n
。
0,1,2,3,100000000
。比较均值和中位数,哪个更具有鲁棒性? - Has QUIT--Anony-Mousse