将结果输出为conll格式(词性标注,斯坦福词性标注器)

3
我正在尝试使用斯坦福POS标记器,我想问一下是否可以分析(实际上只需要POS标记即可)英文文本并以conll格式输出结果。是否有这样的选项?
我正在使用完整的3.2.0版本的斯坦福POS标记器。
非常感谢

你是指Conll分块任务格式吗? - alvas
1个回答

3

提到CONLL格式,我想你是指CONLL2000分块任务的格式,如下所示:

   He        PRP  B-NP
   reckons   VBZ  B-VP
   the       DT   B-NP
   current   JJ   I-NP
   account   NN   I-NP
   deficit   NN   I-NP
   will      MD   B-VP
   narrow    VB   I-VP
   to        TO   B-PP
   only      RB   B-NP
   #         #    I-NP
   1.8       CD   I-NP
   billion   CD   I-NP
   in        IN   B-PP
   September NNP  B-NP
   .         .    O

在CONLL chunking 任务格式中有三列:
  1. token (即单词)
  2. POS 标签
  3. BIO (块/短语标签的开始、内部、外部)
遗憾的是,如果使用stanford MaxEnt标注器,它将 只提供tokenPOS信息,但没有BIO块信息
java -cp stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -model models/left3words-wsj-0-18.tagger -textFile short.txt -outputFormat tsv 2> /dev/null

使用上述命令,Stanford POS标注器已经为您提供了制表符分隔的格式,只是没有第三列(请参见http://nlp.stanford.edu/software/pos-tagger-faq.shtml)。
   He        PRP
   reckons   VBZ
   the       DT
   ...

要获取BIO列,您需要使用以下方法之一:
  • 统计分块器
  • 完整解析器
请查看http://www-nlp.stanford.edu/links/statnlp.html以获取分块器/解析器列表,如果您想使用斯坦福工具,请使用斯坦福解析器,但它会给您带来括号解析格式,您需要进行一些后处理才能将其转换为CONLL2000格式,请参见http://nlp.stanford.edu/software/lex-parser.shtml

请参阅以下链接:https://dev59.com/S2Yr5IYBdhLWcg3wLnZA#14376410 - alvas

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接