TurboParser 的依存分析输出是什么意思?

7

我一直在尝试使用CMU's TurboParser生成的依赖解析树。它运行无误。然而,存在非常少的文档资料。我需要精确地理解他们的解析器输出。例如,句子“I solved the problem with statistics.”会生成以下输出:

1   I           _   PRP PRP _   2   SUB
2   solved      _   VBD VBD _   0   ROOT
3   the         _   DT  DT  _   4   NMOD
4   problem     _   NN  NN  _   2   OBJ
5   with        _   IN  IN  _   2   VMOD
6   statistics  _   NNS NNS _   5   PMOD
7   .           _   .   .   _   2   P

我没有找到任何文档可以帮助理解各列的含义,以及第二列中创建的索引(2、0、4、2等)。此外,我不知道为什么有两列用于词性标注。任何帮助(或指向外部文档的链接)都将非常有帮助。
附言:如果您想尝试他们的解析器,这里是他们的在线演示
再附言:请不要建议使用斯坦福的依赖解析输出。我对线性规划算法感兴趣,这不是斯坦福自然语言处理系统的工作内容。
2个回答

7
以下是TurboParser输出的每一列的含义:
  1. 标记的id,即它在句子中基于一的索引
  2. 原始标记,就是在原始文本中的标记
  3. 词形还原,标记的词形还原形式(这里为空,因为没有设置词形还原器)
  4. 标签(粗粒度词性标注)
  5. 标签(细粒度词性标注,与TurboParser的4.相同)
  6. 形态特征(这里为空)
  7. 标记的头部,由其索引表示(根标记的头部值为0
  8. 当前标记与其头部的关系

你给出的生成输出可以表示为依存句法分析树

representation of the dependency-based parse tree

有关CoNLL-X格式的更多信息:


0
我不了解TurboParser,但我的猜测是第一个数字表示标记的ID,第二个数字表示其主管的ID。也就是说,对于你的例子:
solved(
 I,
 problem(the),
 with(statistics),
 .
)

实际上,这是CoNLL-X格式。您可以在此处获取更多信息:http://ilk.uvt.nl/conll/#dataformat


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接