纠正单词拼写错误(包括非单词和真实单词错误)很容易:
P(w|c) P(c)
在这里,w
是拼写错误的词,c
是我们要匹配的候选词,而候选词是一个单词标记。
但是在 Google 中,当您输入类似于 spelligncheck
的内容时,它会将单词纠正为两个不同的单词。现在,如果我使用莱文斯坦距离,那么P(w|c)
就很容易了。但这意味着我不能再使用一个单词(一个标记)的候选项了。因此,这将指数级增加我的字典大小。
此外,当我输入 app le
时,Google 将其更正为 apple
...
那么,在给定一个单令牌字典的情况下,最好的多词拼写纠正方法是什么呢?