使用NLTK进行德文文本的词性标注

5
我想使用NLTK对德语文本进行词性标注。我在网上找到了一些参考资料,但其中大多数已经过时。例如,有些参考引用了“EUROPARL”词库,但看起来只有“EUROPARL_raw”仍然可用。而且那个没有进行词性标注。我还发现了一些关于使用TIGER语料库的参考资料,但最新版本似乎是我无法直接在NLTK中解析的I格式。
我知道一些非NTLT的替代方法,但我更喜欢使用NLTK。能否提供一个简单的基于德语语料库的词性标注示例?
3个回答

3
我无法找到一个已标记的语料库来与NLTK一起使用。如果您需要预先标记的语料库,那么您可能无法使用NLTK。有一个关于这个问题的开放问题票,但是没有进展(阅读Negra Corpus文件)。
您可以使用NLTK TrainerNegra Corpus标记自己的语料库。这将需要德语语法知识但不需要编程。请参见NLTK-Trainer的演示。

2

0
你可以使用TIGER语料库。它可供研究和评估,免费提供http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.en.html。要导入它,请使用ConllCorpusReader:
root = '/Users/scott/nltk/tiger'
fileid = 'tiger.16012013.conll09'
columntypes = ['ignore', 'words', 'ignore', 'ignore', 'pos']
corp = nltk.corpus.ConllCorpusReader(root, fileid, columntypes, encoding='utf8')

然后使用这个标记语料库来训练在http://www.nltk.org/book/ch06.html中描述的ConsecutivePosTagger。但是我只得到了77%的准确率。为了获得更好的结果,你可以考虑其他在序列分类的其他方法下描述的方法。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接