我正在撰写一个脚本,用于在语言 A 中检测语言 B 中的单词。这两种语言非常相似,可能存在相同单词的实例。
如果您对我目前的代码感兴趣,可以在此找到它: https://github.com/arashsa/language-detection.git 我的方法如下: 我创建了一个语言 B 大字形列表、一个语言 A 大字形列表(语言 B 中的小语料库和语言 A 的大语料库)。然后删除所有常见的大字形。接着,我遍历语言 A 中的文本,并使用大字形来检测语言 A 中的内容,并将其存储在文件中。但是,这种方法会发现许多两种语言都常见的单词,并且它还会发现奇怪的大字形,例如两个相邻国家的名称等其他异常情况。
你们有没有建议、阅读材料或者 NLP 方法可以帮助我呢?
如果您对我目前的代码感兴趣,可以在此找到它: https://github.com/arashsa/language-detection.git 我的方法如下: 我创建了一个语言 B 大字形列表、一个语言 A 大字形列表(语言 B 中的小语料库和语言 A 的大语料库)。然后删除所有常见的大字形。接着,我遍历语言 A 中的文本,并使用大字形来检测语言 A 中的内容,并将其存储在文件中。但是,这种方法会发现许多两种语言都常见的单词,并且它还会发现奇怪的大字形,例如两个相邻国家的名称等其他异常情况。
你们有没有建议、阅读材料或者 NLP 方法可以帮助我呢?