我同时使用Nltk和Scikit Learn进行一些文本处理。然而,在我的文档列表中,有一些文档不是英语。例如,以下情况可能是真实的:
[ "this is some text written in English",
"this is some more text written in English",
"Ce n'est pas en anglais" ]
为了进行分析,我希望在预处理过程中删除所有不是英语的句子。然而,有没有好的方法可以做到这一点呢?我已经通过谷歌搜索,但找不到任何特定的东西,可以让我识别字符串是否为英语。这是在 Nltk
或 Scikit learn
中都没有提供功能吗?编辑 我看到了一些类似于这个和这个的问题,但都是针对单个单词的......而不是"文档"。我必须遍历句子中的每个单词来检查整个句子是否为英语吗?
我正在使用Python,因此首选 Python 库,但如果需要,我可以切换语言,只是认为 Python 是最好的选择。