欧几里得距离与曼哈顿距离在文本聚类中的应用

3

我正在使用Weka尝试不同的聚类算法。当我使用欧几里得距离尝试 SimpleKMeans 算法时,我得到的错误分类实例更少,而当我使用曼哈顿距离尝试时,我得到的错误分类实例更多。什么是文本聚类的最佳距离度量方法?为什么会得到非常不同的结果?我正在使用类别来聚类评估聚类模式。

1个回答

3

假设使用词袋模型,曼哈顿距离更适合文档比较(虽然余弦距离通常是最好的方法),但K-Means是一种梯度下降算法,它假设成本函数是可微的,这在欧几里德距离的情况下成立,但在曼哈顿距离的情况下通常不成立。因此,即使欧几里德度量不是最佳的比较方法,K-Means可能会通过欧几里德距离而不是曼哈顿距离收敛到更好的解。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接