最佳模糊匹配算法是什么?

33

在更短的时间内处理超过100000条记录,最好的模糊匹配算法是什么(模糊逻辑、N-Gram、Levenstein、Soundex等)?


我想@Mitch Wheat 的意思是,由于最佳解决方案将严重依赖于您的输入和系统架构的特性,因此很难对这个问题给出明确的答案。正如Tim在他的回答中提到的那样,你应该阅读这些算法的优缺点,然后测试那些看起来适合自己的算法。 - DougW
2个回答

30

我建议你阅读维基百科文章标题为近似字符串匹配参考资料部分提到的Navarro的文章。 基于实际研究做出决策总比听取陌生人的建议更好。尤其是如果对已知记录数据集的性能很重要的话。


4

这在很大程度上取决于您的数据。某些记录可以更好地匹配。例如,邮政编码是一种定义格式,因此可以以不同的方式与普通字符串进行比较。人们可以根据缩写和出生日期等组合进行匹配。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接