TurboParser 的依存分析输出是什么意思？

Question

TurboParser 的依存分析输出是什么意思？

7

我一直在尝试使用CMU's TurboParser生成的依赖解析树。它运行无误。然而，存在非常少的文档资料。我需要精确地理解他们的解析器输出。例如，句子“I solved the problem with statistics.”会生成以下输出：

1   I           _   PRP PRP _   2   SUB
2   solved      _   VBD VBD _   0   ROOT
3   the         _   DT  DT  _   4   NMOD
4   problem     _   NN  NN  _   2   OBJ
5   with        _   IN  IN  _   2   VMOD
6   statistics  _   NNS NNS _   5   PMOD
7   .           _   .   .   _   2   P

我没有找到任何文档可以帮助理解各列的含义，以及第二列中创建的索引（2、0、4、2等）。此外，我不知道为什么有两列用于词性标注。任何帮助（或指向外部文档的链接）都将非常有帮助。

附言：如果您想尝试他们的解析器，这里是他们的在线演示。

再附言：请不要建议使用斯坦福的依赖解析输出。我对线性规划算法感兴趣，这不是斯坦福自然语言处理系统的工作内容。

- Chthonic Project

2个回答

0

我不了解TurboParser，但我的猜测是第一个数字表示标记的ID，第二个数字表示其主管的ID。也就是说，对于你的例子：

solved(
 I,
 problem(the),
 with(statistics),
 .
)

实际上，这是CoNLL-X格式。您可以在此处获取更多信息：http://ilk.uvt.nl/conll/#dataformat

- Pierre

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Mathieu Rodic · Accepted Answer

以下是TurboParser输出的每一列的含义：

标记的id，即它在句子中基于一的索引
原始标记，就是在原始文本中的标记
词形还原，标记的词形还原形式（这里为空，因为没有设置词形还原器）
标签（粗粒度词性标注）
标签（细粒度词性标注，与TurboParser的4.相同）
形态特征（这里为空）
标记的头部，由其索引表示（根标记的头部值为0）
当前标记与其头部的关系

你给出的生成输出可以表示为依存句法分析树：

representation of the dependency-based parse tree

有关CoNLL-X格式的更多信息：