检测外语单词

Question

检测外语单词

3

我正在撰写一个脚本，用于在语言 A 中检测语言 B 中的单词。这两种语言非常相似，可能存在相同单词的实例。

如果您对我目前的代码感兴趣，可以在此找到它： https://github.com/arashsa/language-detection.git 我的方法如下：我创建了一个语言 B 大字形列表、一个语言 A 大字形列表（语言 B 中的小语料库和语言 A 的大语料库）。然后删除所有常见的大字形。接着，我遍历语言 A 中的文本，并使用大字形来检测语言 A 中的内容，并将其存储在文件中。但是，这种方法会发现许多两种语言都常见的单词，并且它还会发现奇怪的大字形，例如两个相邻国家的名称等其他异常情况。

你们有没有建议、阅读材料或者 NLP 方法可以帮助我呢？

- Arash Saidi

1

你想要检测哪种编程语言？ - user2085779

有许多方法可以检测语言，如果脚本基于UNICODE，则非常容易检测语言。 - user2085779

好的，这些语言是nynorsk和bokmaal（它们是挪威语的两个变种，但我认为它们可以被归类为两种不同的语言） - Arash Saidi

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- duhaime · Accepted Answer

如果您的方法返回两种语言中都存在的单词，并且您只想返回存在于一种语言中的单词，您可能需要创建语言A中的单元组和语言B中的单元组的列表，然后删除两者中都存在的单词。然后，如果您愿意，可以继续进行双字母分析。

话虽如此，在Python中有一些很好的语言识别工具。我发现 lang-id 是其中最好的之一。它预先训练了90多种语言的语言分类器，并且很容易为其他语言进行训练。这里是文档。还有guess-language，但在我的估计中表现不佳。根据外语片段的本地化程度，您可以尝试以适当的粒度对文本进行分块，并通过（例如）langid的分类器运行这些块。