如何将依存路径编码为分类特征?

12

我正在尝试实现动词对之间的关系抽取。我想使用从一个动词到另一个动词的依存路径作为分类器的特征(用于预测是否存在关系X)。但是我不确定如何将依存路径编码为特征。以下是一些例子依存路径,它们是来自StanfordCoreNLP Collapsed Dependencies的以空格分隔的关系注释:

nsubj acl nmod:from acl nmod:by conj:and
nsubj nmod:into
nsubj acl:relcl advmod nmod:of

需要牢记的是这些路径的长度是可变的,并且一个关系可能会在没有任何限制的情况下重新出现

我想到了两种妥协的编码方法:

1)忽略序列,只为每个关系拥有一个特征,其值为其在路径中出现次数的数量。

2)具有长度为n的滑动窗口,并为每个可能的关系对拥有一个特征,其值为这两个关系连续出现的次数。我想这就是如何编码n-gram的。但是,可能的关系数量为50,这意味着我无法使用这种方法。

欢迎任何建议。

1个回答

4
我们有一个依赖路径分类器的项目。我问了开发该系统的小组成员,他说:
1. 整个路径的指标特征 因此,如果你有训练数据点(动词1 -e1-> w1 -e2-> w2 -e3-> w3 -e4-> 动词2, 关系1),特征将是 (e1-e2-e3-e4)
2. 他还做了ngram序列,因此对于同样的数据点,您还将拥有 (e1), (e2), (e3), (e4), (e1-e2), (e2-e3), (e3-e4), (e1-e2-e3), (e2-e3-e4) 他还建议折叠并列边缘以使路径更短。
此外,我应该注意到,他为每个关系开发了一组高精度规则,并使用此规则创建了大量的训练数据。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接