什么是POS标记和浅层解析之间的区别?

52
我目前正在大学学习自然语言处理课程,对一些基本概念仍感到困惑。从统计自然语言处理基础这本书中得到了POS标注的定义:
“标注是将句子中的每个单词标记(或标注)为其适当的词性。我们决定每个单词是名词、动词、形容词还是其他。”
但是,由于该书也将浅层分析描述为POS标注的一种实用工具,因此我无法在书中找到浅层分析的定义。因此,我开始搜索网络,并没有直接解释浅层分析的定义,但在维基百科上找到了以下说明:
“浅层分析(也称块分析,“轻量级分析”)是对句子的分析,它识别出组成部分(名词组、动词、动词组等),但不指定它们的内部结构,也不指定它们在主要句子中的作用。”
我实话说看不出区别,但可能是因为我的英语或者我没有理解简单的基本概念。能否有人解释一下浅层解析和词性标注之间的区别?浅层解析经常也被称为浅层语义分析吗?
谢谢。
5个回答

63

POS标注会为输入句子中的每个单词赋予一个词性标签。

解析句子(例如使用斯坦福pcfg)将把句子转换成一棵树,其叶子节点将包含POS标签(对应于句子中的单词),但是树的其余部分将告诉您这些单词如何组合在一起以形成整个句子。例如,一个形容词和一个名词可以组合成一个“名词短语”,它可能与另一个形容词结合形成另一个名词短语(例如,“quick brown fox”)(这些单词组合的确切方式取决于所用的解析器)。
您可以在http://nlp.stanford.edu:8080/parser/index.jsp上查看解析器输出的样子。

浅层解析器或“切块器”介于这两者之间。纯粹的POS标注器速度非常快,但信息不足,而完整的解析器则速度较慢且提供过多的信息。可以将POS标注器视为仅向您返回解析树的最底层的解析器。切块器可以被视为返回解析树的其他层级而不是最底层的解析器。有时您只需要知道一些单词一起形成一个名词短语,但不关心这些单词的子结构(即哪些单词是形容词、限定词、名词等以及它们如何组合)。在这种情况下,您可以使用切块器来获取确切所需的信息,而不是浪费时间生成句子的完整解析树。


1
请注意,即使是声称每个标记的正确率达到97%的POS标记器,其每个句子的正确率也仅为50-60%。如果不使用实际语法,您无法获得良好的结果,因为有太多常见但困难的情况。宾夕法尼亚标记过于简单,这也没有帮助,因为很多人都在使用它们。 - tchrist
我认为“解析句子(例如使用斯坦福 PCFG)将把句子转换成一棵树,其叶子将保存 POS 标签”,应该改为非叶节点。 - swapyonubuntu

43

POS标注是决定文本中每个标记的类型的过程,例如名词(NOUN)、动词(VERB)、限定词(DETERMINER)等。 标记可以是单词或标点符号。
与此同时,浅层解析或块处理是将文本分成句法相关组的过程。

POS标注输出

我的/PRP$ 狗/NN 喜欢/VBZ 他的/PRP$ 食物/NN ./.

块处理输出

[NP 我的狗] [VP 喜欢] [NP 他的食物]


那么,可以说解析器叶子节点中的词标签数据比仅有词性标注的标签数据更准确吗? - Nathan B

2

约束语法框架是一个很好的例子。在其最简单、最粗糙的形式下,它以带有词性标记的文本作为输入,并添加了您可以称之为从句部分标记。例如,对于形容词,它可以添加@NN>,以表示它是右侧头词为NP的一部分。


1
请提供需要翻译的程序相关内容。 - tripleee

2
POS_tagger 中,我们使用类似于{名词,动词,形容词,副词,概率...}的“标签集”对单词进行标记,而浅层解析器则试图定义句子中的名称实体和短语等子组件,例如:“我目前正在(我的大学)修读一门自然语言处理课程,并且仍然对一些基本概念感到困惑。”

1
D. Jurafsky和J.H. Martin在他们的书籍中说,浅层分析(部分分析)是一种不从句子中提取所有可能信息,而只提取特定情况下有价值的信息的解析。
分块只是浅层分析方法之一。正如提到的那样,它仅提取基本非递归短语(例如动词短语或名词短语)的信息。
其他方法,例如生成扁平分析树。这些树可能包含有关词性标记的信息,但推迟可能需要语义或上下文因素的决策,例如PP附件,协调歧义和名词化合物分析。
因此,浅层分析是产生部分分析树的解析。分块是这种解析的一个例子。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接