Python��用于字符串相似度比较的方法

Question

Python��用于字符串相似度比较的方法

4

我希望能够测量两个单词之间的相似度。我的想法是使用OCR读取文本并检查其中关键词的结果。我需要的函数应该比较两个单词，并以%的形式返回它们之间的相似度。因此，将一个单词与自身进行比较应该是100％的相似度。我已经编写了自己的函数，并逐个字符进行比较，然后根据长度返回匹配数量的比率。但问题在于：

wordComp('h0t',hot')
0.66
wordComp('tackoverflow','stackoverflow')
0

但是直观上看，这两个例子应该具有非常高的相似度>90％。添加Levenstein距离。

import nltk
nltk.edit_distance('word1','word2')

在我的函数中，第二个结果将增加到92％，但第一个结果仍不好。我已经找到了这个“R”的解决方案，可以使用rpy2或使用agrepy作为另一种方法。但是，我想通过更改接受标准的基准来使程序更加敏感和不敏感（只接受相似度> x％的匹配）。是否有其他好的度量标准可以使用，或者您有任何改进函数的想法？

- tifi90

2个回答

0

我写了以下代码。试一下吧。我定义了一个 str3，用于处理两个比较字符串（str1 和 str2）长度不相等的情况。代码使用 while 循环，并且可以通过输入 k 来退出。

k=1
cnt=0
str3=''
while not k==-1:
    str1=input()
    str2=input()
    k=int(input())

    if len(str1)>len(str2):
        str3=str1[0:len(str2)]
        for j in range(0,len(str3)):
            if str3[j]==str2[j]:
                cnt+=1
        print((cnt/len(str1)*100))

    elif len(str1)<len(str2):
        str3=str2[0:len(str1)]
        for j in range(0,len(str2)):
            if str3[j]==str1[j]:
                cnt+=1
        print((cnt/len(str2)*100))

    else:
        for j in range(0,len(str2)):
            if str2[j]==str1[j]:
                cnt+=1
        print((cnt/len(str1)*100))

- MH.AI.eAgLe

感谢分享你的代码。这看起来就像我一开始尝试的那样。使用这个函数可以得到类似的结果，就像我做的一样。我看到的主要问题是当你截取字符串 str3=str2[0:len(str1)] 时会丢失很多信息。 - tifi90

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- ragamuffin · Accepted Answer

你可以使用difflib库。以下函数是我从之前一个回答中获得的，一直为我服务得很好：

from difflib import SequenceMatcher

def similar(a, b):
    return SequenceMatcher(None, a, b).ratio()

print (similar('tackoverflow','stackoverflow'))
print (similar('h0t','hot'))

0.96
0.666666666667

您可以轻松地添加该函数或将其包装在另一个函数中，以考虑不同程度的相似性，例如通过传递第三个参数：

from difflib import SequenceMatcher

def similar(a, b, c):
    sim = SequenceMatcher(None, a, b).ratio()
    if sim > c: 
        return sim

print (similar('tackoverflow','stackoverflow', 0.9))
print (similar('h0t','hot', 0.9))

0.96
None