我正在尝试使用斯坦福POS标记器,我想问一下是否可以分析(实际上只需要POS标记即可)英文文本并以conll格式输出结果。是否有这样的选项?
我正在使用完整的3.2.0版本的斯坦福POS标记器。
非常感谢
我正在使用完整的3.2.0版本的斯坦福POS标记器。
非常感谢
提到CONLL格式,我想你是指CONLL2000分块任务的格式,如下所示:
He PRP B-NP
reckons VBZ B-VP
the DT B-NP
current JJ I-NP
account NN I-NP
deficit NN I-NP
will MD B-VP
narrow VB I-VP
to TO B-PP
only RB B-NP
# # I-NP
1.8 CD I-NP
billion CD I-NP
in IN B-PP
September NNP B-NP
. . O
token
(即单词)POS
标签BIO
(块/短语标签的开始、内部、外部) token
和POS
信息,但没有BIO
块信息。java -cp stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -model models/left3words-wsj-0-18.tagger -textFile short.txt -outputFormat tsv 2> /dev/null
He PRP
reckons VBZ
the DT
...
BIO
列,您需要使用以下方法之一: