111得票1回答
Jaro-Winkler距离和Levenshtein距离的区别是什么?

我希望对来自多个文件的数百万条记录进行模糊匹配,我确定了两种算法:Jaro-Winkler 和 Levenshtein 编辑距离。 我无法理解这两者之间的区别。似乎 Levenshtein 给出了两个字符串之间的编辑次数,而 Jaro-Winkler 提供了一个介于 0.0 到 1.0 之间的...

43得票2回答
比较相似性算法对比

我希望使用字符串相似性函数来查找数据库中的损坏数据。 我发现有几个这样的函数: Jaro, Jaro-Winkler, Levenshtein, 欧几里得距离和 Q-gram, 我想知道它们之间的差异以及哪些情况下它们能够发挥出最好的效果?

24得票4回答
C#中的Jaro-Winkler距离算法

Jaro-Winkler距离字符串比较算法在C#中应该如何实现?

15得票2回答
水母与PyJaroWinkler的比较

我正在尝试使用Jaro-Winkler相似度距离来判断两个字符串是否相似。我尝试使用这些库来比较单词carol和elephant。结果不相似:import jellyfish jellyfish.jaro_winkler('Carol','elephant') 返回值为0.4416666,...

14得票6回答
优化Jaro-Winkler算法

我有这段 Jaro-Winkler 算法的代码,是从这个网站上获取的。我需要运行 150,000 次以获取差异之间的距离。由于我在 Android 移动设备上运行,所以需要很长时间。是否可以进一步优化?public class Jaro { /** * gets the si...

10得票4回答
使用pdist在Python中生成字符串距离矩阵

如何在Python中计算字符串的Jaro Winkler距离矩阵? 我有一个手动输入的字符串数组(名称和记录编号),我正在尝试查找列表中的重复项,包括可能存在轻微拼写差异的重复项。对于类似问题的回答建议使用Scipy的pdist函数和自定义距离函数。我尝试使用Levenshtein包中的ja...

7得票2回答
字符串的缩写相似度

在我的项目中,我有一个使用场景,需要将一个key字符串与许多字符串进行相似性比较。如果这个值大于某个阈值,我认为这些字符串与我的key相似,并且基于这个列表,我进行进一步的计算/处理。 我一直在探索模糊匹配字符串相似性的东西,这些东西使用基于编辑距离的算法,例如“levenshtein、ja...