108得票7回答
T-SQL中的Levenshtein距离

我对在T-SQL中计算Levenshtein距离的算法很感兴趣。

56得票7回答
Python中的字符串相似度度量

我想找到两个字符串之间的相似度。 en.wikipedia 上有一些例子。code.google上有一个Python实现的Levenshtein距离。 在以下限制条件下,是否有更好的算法(并且希望有一个Python库): 我想在字符串之间进行模糊匹配。例如,matches('Hello, A...

49得票10回答
确定一个企业名称是否与另一个名称非常相似 - Python

我正在处理一个大型的企业数据库。 我想比较两个企业名称的相似度,以查看它们是否可能是重复的。 以下是一些企业名称列表,应该测试出具有高重复概率的名称,如何进行比较呢? George Washington Middle Schl George Washington School San...

36得票9回答
Levenshtein距离:如何更好地处理单词位置的交换?

我在使用PHP的levenshtein函数比较字符串方面取得了一些成功。 然而,对于包含交换位置的子字符串的两个字符串,该算法会将其视为全新的子字符串。 例如: levenshtein("The quick brown fox", "brown quick The fox"); // 1...

29得票1回答
基于字符串比较的相似性分数在R语言中(编辑距离)

我正在尝试基于两个字符串之间的比较来分配相似性分数。在R中是否有这样的功能?我知道SAS中有一个名为SPEDIS的函数可以实现此功能。请告诉我在R中是否有类似的函数。

26得票3回答
标准化编辑距离

我有一个问题,我们能否通过将编辑距离(levenshtein edit distance)的值除以两个字符串的长度来进行归一化呢? 我之所以问这个问题是因为,如果我们比较两个长度不相等的字符串,那么它们长度之间的差异也会被计算在内。 例如: ed('has a', 'has a ball') ...

24得票6回答
一个句子的词级编辑距离

是否存在一种算法可以找到两个句子之间的单词级编辑距离? 例如,"A Big Fat Dog" 和 "The Big House with the Fat Dog" 之间有1个替换和3个插入。

23得票10回答
将一个单词转换为另一个单词的最短路径

在一个数据结构项目中,我必须找到两个单词之间的最短路径(例如"cat"和"dog"),每次只更改一个字母。我们被提供了Scrabble单词列表以用于查找路径。例如:cat -> bat -> bet -> bot -> bog -> dog 我已经使用广度优先搜索...

22得票4回答
两个图之间的编辑距离

我在想,对于字符串,我们有字符串的Levenshtein距离(或编辑距离),那么对于图形是否有类似的东西呢? 我的意思是,是否有一种标量度量方法来确定将一个图G1转换为另一个图G2所需的原子操作数(节点和边缘插入/删除)。

20得票1回答
在 Delphi 中如何实现 Levenshtein 距离?

我发表这篇文章是为了以回答自己的问题的精神。 我的问题是:如何在Delphi中实现Levenshtein算法,用于计算两个字符串之间的编辑距离,如此处所述? 关于性能方面的说明: 这个算法非常快。在我的台式电脑上(2.33 GHz双核,2GB内存,WinXP),我可以在不到一秒钟的时间里处...