使用NLTK进行德文文本的词性标注

Question

使用NLTK进行德文文本的词性标注

5

我想使用NLTK对德语文本进行词性标注。我在网上找到了一些参考资料，但其中大多数已经过时。例如，有些参考引用了“EUROPARL”词库，但看起来只有“EUROPARL_raw”仍然可用。而且那个没有进行词性标注。我还发现了一些关于使用TIGER语料库的参考资料，但最新版本似乎是我无法直接在NLTK中解析的I格式。

我知道一些非NTLT的替代方法，但我更喜欢使用NLTK。能否提供一个简单的基于德语语料库的词性标注示例？

- Achim

3个回答

2

使用TIGER语料库训练标注器是一个不错的方法。现在它也可以用NLTK加载，以CONLL09格式可用。我将它与Philipp Nolte的ClassifierBasedGermanTagger结合使用，获得了大约96%的准确率。我写了一篇博客文章“使用NLTK对德语文本进行词性标注”，其中解释了如何运行此过程。

- IsaacKleiner

0

你可以使用TIGER语料库。它可供研究和评估，免费提供http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.en.html。要导入它，请使用ConllCorpusReader：

root = '/Users/scott/nltk/tiger'
fileid = 'tiger.16012013.conll09'
columntypes = ['ignore', 'words', 'ignore', 'ignore', 'pos']
corp = nltk.corpus.ConllCorpusReader(root, fileid, columntypes, encoding='utf8')

然后使用这个标记语料库来训练在http://www.nltk.org/book/ch06.html中描述的ConsecutivePosTagger。但是我只得到了77%的准确率。为了获得更好的结果，你可以考虑其他在序列分类的其他方法下描述的方法。

- Kai Mysliwiec

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- BigHandsome · Accepted Answer

我无法找到一个已标记的语料库来与NLTK一起使用。如果您需要预先标记的语料库，那么您可能无法使用NLTK。有一个关于这个问题的开放问题票，但是没有进展（阅读Negra Corpus文件）。

您可以使用NLTK Trainer和Negra Corpus标记自己的语料库。这将需要德语语法知识但不需要编程。请参见NLTK-Trainer的演示。