437得票14回答
获取最接近的字符串匹配

我需要一种比较多个字符串和测试字符串并返回最接近它的字符串的方法:TEST STRING: THE BROWN FOX JUMPED OVER THE RED COW CHOICE A : THE RED COW JUMPED OVER THE GREEN CHICKEN CHOICE ...

193得票2回答
在Python中实现高性能模糊字符串比较,使用Levenshtein或difflib。

我正在进行临床消息规范化(拼写检查)工作,即检查每个给定单词是否在900,000个医学词典中。我更关心时间复杂度/性能。 我想进行模糊字符串比较,但不确定要使用哪个库。 选项1:import Levenshtein Levenshtein.ratio('hello world', 'hel...

123得票6回答
什么算法在拼写检查器中提供建议?

在实现带有单词建议的拼写检查器时,通常使用什么算法? 一开始,我认为对于每个新输入的单词(如果未在字典中找到)进行检查,并将其与字典中的每个单词计算Levenshtein距离,然后返回前几个结果可能是有意义的。但是,这似乎非常低效,需要不断评估整个字典。 通常是如何实现的呢?

111得票1回答
Jaro-Winkler距离和Levenshtein距离的区别是什么?

我希望对来自多个文件的数百万条记录进行模糊匹配,我确定了两种算法:Jaro-Winkler 和 Levenshtein 编辑距离。 我无法理解这两者之间的区别。似乎 Levenshtein 给出了两个字符串之间的编辑次数,而 Jaro-Winkler 提供了一个介于 0.0 到 1.0 之间的...

108得票7回答
T-SQL中的Levenshtein距离

我对在T-SQL中计算Levenshtein距离的算法很感兴趣。

81得票7回答
如何计算给定两个字符串的距离相似度?

我需要计算两个字符串之间的相似度。那我具体是什么意思呢?让我举个例子: 正确单词: hospital 错误单词: haspita 现在我的目标是确定我需要修改多少个字符才能得到正确单词。在这个例子中,我需要修改2个字母。那么百分比是多少呢?我总是使用正确单词的长度作为分母。所以它变成了...

77得票6回答
模糊搜索算法(近似字符串匹配算法)

我希望创建一个模糊搜索算法。 然而,经过几个小时的调研,我仍然很困难。 我想创建一个在学校名称列表上执行模糊搜索的算法。 这是我目前所看到的: 大部分我的调研都指向Google和Stackoverflow上的"字符串度量",例如: Levenshtein距离 Damerau-Lev...

64得票4回答
在VBA中的Levenshtein Distance

我有一张包含数据的Excel表格,想要计算它们之间的Levenshtein距离。我已经尝试将其导出为文本,从脚本(PHP)中读取,运行Levenshtein(计算Levenshtein距离),然后再将其保存回Excel中。 但是我正在寻找一种以编程方式在VBA中计算Levenshtein距离...

57得票2回答
汉明距离与莱文斯坦距离

我正在处理一项问题,需要找到两个序列之间的距离以确定它们的相似性。对于这个问题来说,序列的顺序非常重要。然而,我拥有的序列长度不完全相同,所以我会用空点填充任何缺失的字符串,使得两个序列具有相同的长度,以满足汉明距离的要求。由于我只关心交换次数(不像Levenshtein算法那样关心插入或删除...

56得票7回答
Python中的字符串相似度度量

我想找到两个字符串之间的相似度。 en.wikipedia 上有一些例子。code.google上有一个Python实现的Levenshtein距离。 在以下限制条件下,是否有更好的算法(并且希望有一个Python库): 我想在字符串之间进行模糊匹配。例如,matches('Hello, A...