我使用字典来表示文章中单词的计数。例如,{"name":2,“your”:10,“me”:20}表示“name”出现了两次,“your”出现了10次,“me”出现了20次。
那么,有没有一种好的方法来计算这些向量之间的欧氏距离呢?困难在于这些向量的长度不同,并且有些向量包含某些单词,而有些则不包含。
我知道我可以编写一个长函数来完成这个任务,但我正在寻找一种更简单、更巧妙的方法。谢谢。
编辑: 目标是获得两篇文章之间的相似度并对它们进行分组。
那么,有没有一种好的方法来计算这些向量之间的欧氏距离呢?困难在于这些向量的长度不同,并且有些向量包含某些单词,而有些则不包含。
我知道我可以编写一个长函数来完成这个任务,但我正在寻找一种更简单、更巧妙的方法。谢谢。
编辑: 目标是获得两篇文章之间的相似度并对它们进行分组。
counter.Counter()
,这是 Python 中 bag 数据结构的实现。 - Martijn Pietersx=(x1,x2)
是二维的,因此可以通过欧几里得距离与向量y=(y1,y2)
进行比较。但是,如何将x
与向量z = (z1, z2, z3, z4, z5)
进行比较呢? - MaxPowers