我正在对文本文档进行聚类。我正在使用tf-idf和余弦相似度。但是,有一些我并不真正理解的东西,尽管我正在使用这些度量方法。tf-idf权重是否会影响两个文档之间的相似性计算?
假设我有以下两个文档:
1- 高树。
2- 高树高树高树高树。
然后,两个文档之间的相似性将为1,尽管两个文档的tf-idf向量是不同的。第二个文档应该比第一个文档的术语具有更高的权重。
假设两个向量的权重为(仅假设):
v1(1.0,1.0)
v2(5.0,8.0)
计算余弦相似度得到1.0。
下面是两个共享相同术语但权重不同的随机向量的草图。
向量之间有明显的角度,因此权重应该起到作用!
这触发了一个问题,tf / idf权重在相似性计算中起什么作用?因为到目前为止,我所理解的是这里的相似性仅关心术语的存在和不存在。
假设我有以下两个文档:
1- 高树。
2- 高树高树高树高树。
然后,两个文档之间的相似性将为1,尽管两个文档的tf-idf向量是不同的。第二个文档应该比第一个文档的术语具有更高的权重。
假设两个向量的权重为(仅假设):
v1(1.0,1.0)
v2(5.0,8.0)
计算余弦相似度得到1.0。
下面是两个共享相同术语但权重不同的随机向量的草图。
向量之间有明显的角度,因此权重应该起到作用!
这触发了一个问题,tf / idf权重在相似性计算中起什么作用?因为到目前为止,我所理解的是这里的相似性仅关心术语的存在和不存在。