我有一个问题,我们能否通过将编辑距离(levenshtein edit distance)的值除以两个字符串的长度来进行归一化呢? 我之所以问这个问题是因为,如果我们比较两个长度不相等的字符串,那么它们长度之间的差异也会被计算在内。 例如: ed('has a', 'has a ball') = 4 和 ed('has a', 'has a ball the is round') = 15。 如果我们增加字符串的长度,即使它们相似,编辑距离也会增加。 因此,我无法确定一个好的编辑距离应该是什么数值。
fDist = float(len - levenshteinDistance(s1, s2)) / float(len)
更好呢?看起来这里是在说 normalizedLevensteinDistance 是levenshteinDistance(s1, s2)/max(s1.length(), s2.length())
? - Exploring