我正在处理混合语言网页的拼写检查,但是还没有找到任何现有的相关研究。目标是在混合语言网页中自动检测每个句子的语言,并自动针对其适当的语言进行拼写检查。假设我们可以忽略混合多种语言的句子(例如,“他有某种je ne sais quoi”),并且假设网页最多只包含2或3种语言。
简单的例子(威尔士语+英语):http://wales.gov.uk/ 我目前使用以下方法的组合:
- 字符分布(例如0600-06FF =阿拉伯语等) - n-Grams以区分具有相似字符的语言 - 字典查找以确定区域设置,即en-US,en-GB
我已经有可工作的代码,但担心它可能太天真或不必要地重新发明轮子。是否有其他人曾经这样做过?
简单的例子(威尔士语+英语):http://wales.gov.uk/ 我目前使用以下方法的组合:
- 字符分布(例如0600-06FF =阿拉伯语等) - n-Grams以区分具有相似字符的语言 - 字典查找以确定区域设置,即en-US,en-GB
我已经有可工作的代码,但担心它可能太天真或不必要地重新发明轮子。是否有其他人曾经这样做过?