多语言拼写检查与语言识别

Question

多语言拼写检查与语言识别

language-agnosticnlpmultilingualspell-checking

6

我正在处理混合语言网页的拼写检查，但是还没有找到任何现有的相关研究。目标是在混合语言网页中自动检测每个句子的语言，并自动针对其适当的语言进行拼写检查。假设我们可以忽略混合多种语言的句子（例如，“他有某种je ne sais quoi”），并且假设网页最多只包含2或3种语言。

简单的例子（威尔士语+英语）：http://wales.gov.uk/ 我目前使用以下方法的组合：

- 字符分布（例如0600-06FF =阿拉伯语等） - n-Grams以区分具有相似字符的语言 - 字典查找以确定区域设置，即en-US，en-GB

我已经有可工作的代码，但担心它可能太天真或不必要地重新发明轮子。是否有其他人曾经这样做过？

- Oliver Emberton

2个回答

-1

使用 Languagetool http:/www.languagetool.org 库，您可以选择需要的语言，并将内容根据您设置的语言进行检查。例如，对于一家法语/英语网站，您可以检查文本是否符合英语和法语标准。显然，如果您使用错误的语言进行检查，则会出现更多错误。

示例：

如果您检查来自 http://fr.wikipedia.org/wiki/Charte_de_la_langue_fran%C3%A7aise 的法语文本，则会出现：

La Charte de la langue française (communément appelée la loi 1011) est 
une loi définissant les droits linguistiques de tous les citoyens du 
Québec et faisant du français la langue officielle du Québec.

在http://www.languagetool.org上，它会显示法语没有错误，而英语/英国英语则有20多个错误。

相应的英文文本：

The Charter of the French Language (French: La charte de la langue française), also 
known as Bill 101 (Law 101 or French: Loi 101), is a law in the province of Quebec 
in Canada defining French, the language of the majority of the population, as the 
official language of Quebec and framing fundamental language rights. It is the central
legislative piece in Quebec's language policy.

对于英国/英语（由于法语引文），将显示4个错误，当您将其与法语语言再次检查时，将显示20多个错误。

- Wolfgang Fahl

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- yura · Accepted Answer

您可以使用API（Google和Yandex）进行拼写检查和语言检测-但我认为这个选项不是非常可扩展。

另一个选择是使用免费的lucene工具进行拼写检查 http://wiki.apache.org/lucene-java/SpellChecker，但是您首先必须索引一些语料库-Wikipedia是一个很好的选择。 LD可以通过http://textcat.sourceforge.net/实现。