欧几里得距离与曼哈顿距离在文本聚类中的应用

Question

欧几里得距离与曼哈顿距离在文本聚类中的应用

algorithmmathcluster-analysiswekadistance

3

我正在使用Weka尝试不同的聚类算法。当我使用欧几里得距离尝试 SimpleKMeans 算法时，我得到的错误分类实例更少，而当我使用曼哈顿距离尝试时，我得到的错误分类实例更多。什么是文本聚类的最佳距离度量方法？为什么会得到非常不同的结果？我正在使用类别来聚类评估聚类模式。

- vikifor

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- damienfrancois · Accepted Answer

假设使用词袋模型，曼哈顿距离更适合文档比较（虽然余弦距离通常是最好的方法），但K-Means是一种梯度下降算法，它假设成本函数是可微的，这在欧几里德距离的情况下成立，但在曼哈顿距离的情况下通常不成立。因此，即使欧几里德度量不是最佳的比较方法，K-Means可能会通过欧几里德距离而不是曼哈顿距离收敛到更好的解。