我需要对多种语言的文本进行命名实体提取,包括西班牙语、葡萄牙语、希腊语、捷克语和中文。
这两个函数支持哪些语言?是否有方法可以使用其他语料库来包含这些语言?
NLTK分词器支持的语言列表如下:
这对应于在Windows中存储的C:\Users\XXX\AppData\Roaming\nltk_data\tokenizers\punkt中的pickle。当进行标记化时,您可以使用键'language'输入该内容。
nltk.word_tokenize(text, language='italian')