将结果输出为conll格式（词性标注，斯坦福词性标注器）

Question

将结果输出为conll格式（词性标注，斯坦福词性标注器）

nlpstanford-nlppos-taggeroutput-formattingoutputformat

3

我正在尝试使用斯坦福POS标记器，我想问一下是否可以分析（实际上只需要POS标记即可）英文文本并以conll格式输出结果。是否有这样的选项？

我正在使用完整的3.2.0版本的斯坦福POS标记器。

非常感谢

- chryssa

你是指Conll分块任务格式吗？ - alvas

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- alvas · Accepted Answer

提到CONLL格式，我想你是指CONLL2000分块任务的格式，如下所示：

   He        PRP  B-NP
   reckons   VBZ  B-VP
   the       DT   B-NP
   current   JJ   I-NP
   account   NN   I-NP
   deficit   NN   I-NP
   will      MD   B-VP
   narrow    VB   I-VP
   to        TO   B-PP
   only      RB   B-NP
   #         #    I-NP
   1.8       CD   I-NP
   billion   CD   I-NP
   in        IN   B-PP
   September NNP  B-NP
   .         .    O

在CONLL chunking 任务格式中有三列:

token (即单词)
POS 标签
BIO (块/短语标签的开始、内部、外部)

遗憾的是，如果使用stanford MaxEnt标注器，它将 只提供token和POS信息，但没有BIO块信息。

java -cp stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -model models/left3words-wsj-0-18.tagger -textFile short.txt -outputFormat tsv 2> /dev/null

使用上述命令，Stanford POS标注器已经为您提供了制表符分隔的格式，只是没有第三列（请参见http://nlp.stanford.edu/software/pos-tagger-faq.shtml）。

   He        PRP
   reckons   VBZ
   the       DT
   ...

要获取BIO列，您需要使用以下方法之一：

统计分块器
完整解析器

请查看http://www-nlp.stanford.edu/links/statnlp.html以获取分块器/解析器列表，如果您想使用斯坦福工具，请使用斯坦福解析器，但它会给您带来括号解析格式，您需要进行一些后处理才能将其转换为CONLL2000格式，请参见http://nlp.stanford.edu/software/lex-parser.shtml。