我想要计算两个列表的余弦相似度,例如以下内容:
我知道A和B的余弦相似度应该是:
我尝试将列表改成像“家银行银行建筑工厂”这样的形式,看起来像一个句子,但是一些元素(如home(私人))本身有空格,而一些元素有括号,所以我发现很难计算单词出现次数。
你知道如何计算这个复杂列表中单词出现次数吗?这样对于列表B,单词出现次数可以表示为:
A = [u'home (private)', u'bank', u'bank', u'building(condo/apartment)','factory']
B = [u'home (private)', u'school', u'bank', u'shopping mall']
我知道A和B的余弦相似度应该是:
3/(sqrt(7)*sqrt(4)).
我尝试将列表改成像“家银行银行建筑工厂”这样的形式,看起来像一个句子,但是一些元素(如home(私人))本身有空格,而一些元素有括号,所以我发现很难计算单词出现次数。
你知道如何计算这个复杂列表中单词出现次数吗?这样对于列表B,单词出现次数可以表示为:
{'home (private):1, 'school':1, 'bank': 1, 'shopping mall':1}?
你知道如何计算这两个列表的余弦相似度吗?
非常感谢。
3/(sqrt(7)*sqrt(4))
是从哪里来的? - ZdaR