NLTK其他语言词性标注器

14

我正在使用Python中的nltk模块,并尝试将其用于对不同语言进行词性标注。

关于如何在不同语言中训练自己的POS标注器有很多信息 - 是否有针对不同语言的真正健壮、经过良好构建和测试的NLTK POS标注器数据库? (使用pickle模块导出POS标注器非常容易)


可能是使用语料库对西班牙语单词进行NLTK标记的重复问题。 - alvas
3个回答

5
如果不仅使用NLTK,您可以尝试我们强大且与语言无关的POS标记工具包 RDRPOSTagger
(许可证:GPLv2;编程语言:Python&Java)
RDRPOSTagger在学习和标记过程中都表现出快速性能。此外,与最先进的结果相比,RDRPOSTagger实现了非常有竞争力的准确性。
更新于2015年11月18日:发布版本1.2,增加了对形态丰富语言的标记准确性的支持。请参见this paper中的实验结果,包括性能速度和标记准确性。
RDRPOSTagger支持保加利亚语、捷克语、荷兰语、英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语、瑞典语、泰语和越南语的预训练POS和形态标记模型。RDRPOSTagger还支持40种语言的预训练通用POS标记模型。

如果有其他人需要,我已经将RDRPOSTagger移植到Python 3 - Jacopofar

5
你可以在http://www.nltk.org/nltk_data/找到经过充分测试和建设的强大的NLTK语料库。虽然也有其他语料库,但这些是最好的。

2
据我所知,目前没有这样一个强大、经过良好构建和测试的词性标注器数据库。不过我认为这是一个好主意。
我自己试用了几个标注器。对于一个大型英文语料库,我使用了以下链接中提供的标注器: http://gmb.let.rug.nl/ 对于西班牙语,我使用了NLTK中包含的标注器(cess_esp)。
from nltk.corpus import cess_esp as cess

快速训练简单标注器,您可以查看 NLTK Trainer:

https://nltk-trainer.readthedocs.org/en/latest/train_tagger.html


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接