我可以帮助您进行翻译。下面是您需要翻译的内容:
我有一个df1和一个df2中的文本列。 df2的长度将与df1的长度不同。 我想要计算df1 [text]中的每个条目与df2 [text]中的每个条目的余弦相似度,并为每次匹配给出一个分数。
示例输入
df1
mahesh
suresh
df2
surendra
mahesh
shrivatsa
suresh
maheshwari
示例输出
mahesh surendra 30
mahesh mahesh 100
mahesh shrivatsa 20
mahesh suresh 60
mahesh maheshwari 80
suresh surendra 70
suresh mahesh 60
suresh shrivatsa 40
suresh suresh 100
suresh maheshwari 30
当我尝试使用tf-idf方法将这两列进行相似性匹配时,我遇到了问题(获取密钥错误),因为这些列的长度不同。 是否有其他方法可以解决这个问题... 非常感谢任何帮助。 我搜索了很多资料,并发现在几乎所有情况下,人们都是将第一个文档与同一语料库中的其他文档进行比较。 在这里,就像将语料库1中的每个文档与语料库2中的每个文档进行比较。