最大编辑距离和基于词频的建议

9
我需要一个符合以下规格的拼写检查器:
  • 可扩展性非常强。
  • 能够设置建议单词的最大编辑距离。
  • 基于提供的单词频率给出建议(首先是最常见的单词)。

我看了一下Hunspell:
我在man中找到了MAXDIFF参数,但似乎并没有按预期工作。也许我使用方法不对。
文件t.aff:
MAXDIFF 1 

文件 dico.dic:

5  
rouge  
vert  
bleu  
bleue  
orange  

-

NHunspell.Hunspell h = new NHunspell.Hunspell("t.aff", "dico.dic");
List<string> s = h.Suggest("bleuue");

无论t.aff是否为空,都返回相同的东西:

bleue
bleu
2个回答

3

0

最大差异为1的情况下应该返回几个结果,但仍然可能返回多个结果。

即使最大差异为0,也可能返回多个结果,但这应该会降低概率。这取决于n-gram。尝试将最大差异设为0会减少结果的数量,但这并不保证你会得到一个建议。

对于按照最常见的单词排序的要求,Google ngram corpus 是公开可用的。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接