NLTK中的NN VBD IN DT NNS RB是什么意思?

33
当我对文本进行分块时,输出结果中会出现许多类似于NN、VBD、IN、DT、NNS、RB的代码。请问是否有一份列表可以告诉我这些代码的含义?我已经尝试了在谷歌上搜索nltk chunk codenltk chunk grammarnltk chunk tokens,但是没有找到任何解释这些代码含义的文档。
4个回答

26

你看到的标签不是由块分割引起的,而是在分块之前进行的词性标注。这是Penn Treebank标记集,请参见https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

>>> from nltk import word_tokenize, pos_tag, ne_chunk
>>> sent = "This is a Foo Bar sentence."
# POS tag.
>>> nltk.pos_tag(word_tokenize(sent))
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('Foo', 'NNP'), ('Bar', 'NNP'), ('sentence', 'NN'), ('.', '.')]
>>> tagged_sent = nltk.pos_tag(word_tokenize(sent))
# Chunk.
>>> ne_chunk(tagged_sent)
Tree('S', [('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]), ('sentence', 'NN'), ('.', '.')])
为了获取块,请查找在块输出中的子树。从上面的输出中,Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]) 指示了该块。
这个教程网站对解释NLTK的块处理过程非常有帮助:http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/dongqing-chunking.pdf
有关官方文档,请参见http://www.nltk.org/howto/chunk.html

当前上面的链接已失效。请尝试使用以下链接:https://www.cs.umd.edu/~nau/cmsc421/part-of-speech-tagging.pdf - mccurcio
1
请尝试访问此链接:https://web.archive.org/web/20150412115803/http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/dongqing-chunking.pdf - alvas

26
即使上述链接包含各种类型,但希望对某些人仍有帮助,以下是其他链接中遗漏的一些补充。 CC: 连词 CD: 基数 DT: 限定词 EX: 存在句 FW: 外来词 IN: 介词或从属连词 JJ: 形容词 VP: 动词短语 JJR: 形容词比较级 JJS: 形容词最高级 LS: 列表项标记 MD: 情态动词 NN: 单数或质量名词 NNS: 复数名词 PP: 介词短语 NNP: 非公式化的专用名词短语 NNPS: 复数非公式化的专用名词短语 PDT: 前位限定词 POS: 所有格结束词 PRP: 人称代词短语 PRP$: 物主代词短语 RB: 副词 RBR: 副词比较级 RBS: 副词最高级 RP: 小品词 S: 简单陈述句 SBAR: 由(可能为空的)从属连词引导的从句

SBARQ: 由wh-单词或短语引出的直接疑问句。

SINV: 倒装陈述句,即主语跟在时态动词或情态动词后面。

SQ: 倒置的是非问句,或SBARQ中wh-短语后的疑问句主句。

SYM: 符号

VBD: 过去式动词

VBG: 动词,动名词或现在分词

VBN: 过去完成式动词

VBP: 非第三人称单数形式的动词现在时

VBZ: 第三人称单数形式的动词现在时

WDT: Wh-限定词

WP: Wh-代词

WP$: Wh-物主代词

WRB: Wh-副词


2
请告诉我们您从哪里获取了此列表并添加了标签。 - shantanu pathak
@shantanupathak 这是一篇非常古老的帖子,我没有链接的记录,必须要重新搜索。 - red-devil
这里有一个非常好的资源,详细介绍了自然语言处理工具NLTK中的词性标注技术:链接 - Geoffroy de Viaris

2

正如Alvas所述,这些标记是词性的一部分,它们告诉我们一个单词/短语是名词短语、副词、限定词、动词等等。

以下是POS标签的详细信息供您参考。

Chunking recovers the phrased from the Part of speech tags

您可以参考此链接了解有关分块的内容:链接

0

由于没有人提到,您还可以在代码中添加一行nltk.help.upenn_tagset(),它将打印出所有的词性标记及其含义!


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接