有一些工具,例如HunSpell(开源拼写检查器,广泛包括OpenOffice),它们从多个角度解决了这个问题。用于确定单词之间距离的一个广泛使用的标准是Levenshtein距离,该标准也在HunSpell中使用。
您可以使用 BLAST,并修改其使用字典中的单词作为离散单元,这使得匹配过程更具体,不像长的DNA字符串。BLAST已经内置了编辑距离的概念。或者,您可以使用后缀树(Dan Gusfeld在基本字符串匹配算法方面有一本优秀的书),并将编辑距离的想法简化。