OpenNLP Chunker 和 POS 标注结果

16

Java - opennlp

我是opennlp的新手,尝试分析句子并获得post tag和chunk结果,但我无法理解这些值的含义。是否有任何表格可以解释post tag和chunk结果值的完整含义?

Tokens: [My, name, is, Chris, corrale, and, I, live, in, Philadelphia, USA, .]
Post Tags: [PRP$, NN, VBZ, NNP, NN, CC, PRP, VBP, IN, NNP, NNP, .]
chunk Result: [B-NP, I-NP, B-VP, B-NP, I-NP, O, B-NP, B-VP, B-PP, B-NP, I-NP, O]

在我的情况下(使用OpenNLP.net),我得到了在下面的Penn Treebank链接中不可用的标签,你们有任何想法这里发生了什么?我得到的奇怪标签:PROP; ADV - hamiltonjose
3个回答

14
POS标签来自Penn Treebank tagset。块是名词短语(NP)、动词短语(VP)和介词短语(PP)。 "B-.."表示此类短语的开头,"I-.."表示类似于“inner”的东西,即短语在这里继续(请参见OpenNLP docs)。

11

S -> 简单陈述句,即不由子句或Wh-词引导的可能为空的从句引入,并且不表现主语动词倒置。

SBAR -> 由(可能为空的)从属连词引入的从句。

SBARQ -> 直接疑问句,由Wh-词或Wh-短语引入。间接疑问句和关系从句应该被括在SBAR中,而不是SBARQ中。

SINV -> 倒装陈述句,即主语跟随时态动词或情态动词的陈述句。

SQ -> 倒装的Yes/No疑问句,或Wh-疑问句中随Wh-短语之后的主句。

ADJP -> 形容词短语。

ADVP -> 副词短语。

CONJP -> 连接短语。

FRAG -> 碎片化的句子。

INTJ -> 感叹词。大致相当于词性标签UH。

LST -> 列表标记符号。包括周围的标点符号。

NAC -> 不是成分。用于显示NP中某些前置修饰语的范围。

NP -> 名词短语。

NX -> 用于某些复杂的NP中,标记NP的头。与N-bar大致相对应。

PP -> 介词短语。

PRN -> 插入语。

PRT -> 小品词。用于标记RP类别的单词。

QP -> 量化器短语(即复杂的度量/量短语)。用于NP中。

RRC -> 简化的关系从句。

UCP -> 不同协调短语。

VP -> 动词短语。

WHADJP -> Wh-形容词短语。包含Wh-副词的形容词短语,例如how hot。

WHAVP -> Wh-副词短语。引入带有NP间隙的从句。可能为空(包含0补足语),也可能是词汇性的,包含Wh-副词,如how或why。

WHNP -> Wh-名词短语。引入带有一个 NP 空缺的从句。可能为空(包含0补语) (包含0补语)或者是词汇性质的,包含一些 wh-词,例如:谁,哪本书,谁的女儿,其中没有任何,或者多少豹。

WHPP -> Wh-介词短语。包含一个 wh-名词短语的介词短语 (例如 of which 或 by whose authority),它要么引入一个 PP 空缺,要么被包含在 WHNP 中。

X -> 未知、不确定或无法括号化。X 经常用于括号化的错别字和括号化the...the-构造。

来源:http://mail-archives.apache.org/mod_mbox/opennlp-users/201402.mbox/%3CCACQuOSXOeyw2O-AZtW3m=iABo1=3cpZOdPiWFXoNwN-SVWo4gQ@mail.gmail.com%3E


2
请参考POSTag列表获取标记的详细信息。
像"B-NP"这样的块标记由两个或三个部分组成:
第一部分:
B - marks the beginning of a chunk
I - marks the continuation of a chunk
E - marks the end of a chunk

作为一个块,它可能只有一个词(如上面例子中的“她”),它既可以是一个块的开头也可以是结尾。

第二部分:

NP - noun chunk
VP - verb chunk

如需更多参考资料,您可以参考 OpenNLP文档


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接