多语言拼写检查与语言识别

6
我正在处理混合语言网页的拼写检查,但是还没有找到任何现有的相关研究。目标是在混合语言网页中自动检测每个句子的语言,并自动针对其适当的语言进行拼写检查。假设我们可以忽略混合多种语言的句子(例如,“他有某种je ne sais quoi”),并且假设网页最多只包含2或3种语言。
简单的例子(威尔士语+英语):http://wales.gov.uk/ 我目前使用以下方法的组合:
- 字符分布(例如0600-06FF =阿拉伯语等) - n-Grams以区分具有相似字符的语言 - 字典查找以确定区域设置,即en-US,en-GB
我已经有可工作的代码,但担心它可能太天真或不必要地重新发明轮子。是否有其他人曾经这样做过?
2个回答

2

1
Lucene的拼写检查器(至少在几个版本之前)非常慢,因为它计算未知单词与其字典中每个单词之间的标准化Levenshtein距离。 - Fred Foo
是的,恐怕由于可扩展性和许可证原因,Google 已经被淘汰了。我应该列出我的最小语言列表,但它比 TextCat 目前可以检测到的更多。大多数时候,我只是在检查我是否需要不必要地重新发明轮子;看起来我并不需要。 - Oliver Emberton
1
2 larsmans:不是每个都这样。它首先通过单词ngram搜索,然后评估快速失败的Levenshtein。无论如何,它并不是很好。 - yura

-1

使用 Languagetool http:/www.languagetool.org 库,您可以选择需要的语言,并将内容根据您设置的语言进行检查。例如,对于一家法语/英语网站,您可以检查文本是否符合英语和法语标准。显然,如果您使用错误的语言进行检查,则会出现更多错误。

示例:

如果您检查来自 http://fr.wikipedia.org/wiki/Charte_de_la_langue_fran%C3%A7aise 的法语文本,则会出现:

La Charte de la langue française (communément appelée la loi 1011) est 
une loi définissant les droits linguistiques de tous les citoyens du 
Québec et faisant du français la langue officielle du Québec.

http://www.languagetool.org上,它会显示法语没有错误,而英语/英国英语则有20多个错误。

相应的英文文本:

The Charter of the French Language (French: La charte de la langue française), also 
known as Bill 101 (Law 101 or French: Loi 101), is a law in the province of Quebec 
in Canada defining French, the language of the majority of the population, as the 
official language of Quebec and framing fundamental language rights. It is the central
legislative piece in Quebec's language policy.

对于英国/英语(由于法语引文),将显示4个错误,当您将其与法语语言再次检查时,将显示20多个错误。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接