如何将依存路径编码为分类特征？

Question

12

我正在尝试实现动词对之间的关系抽取。我想使用从一个动词到另一个动词的依存路径作为分类器的特征（用于预测是否存在关系X）。但是我不确定如何将依存路径编码为特征。以下是一些例子依存路径，它们是来自StanfordCoreNLP Collapsed Dependencies的以空格分隔的关系注释：

nsubj acl nmod:from acl nmod:by conj:and
nsubj nmod:into
nsubj acl:relcl advmod nmod:of

需要牢记的是这些路径的长度是可变的，并且一个关系可能会在没有任何限制的情况下重新出现。

我想到了两种妥协的编码方法：

1）忽略序列，只为每个关系拥有一个特征，其值为其在路径中出现次数的数量。

2）具有长度为n的滑动窗口，并为每个可能的关系对拥有一个特征，其值为这两个关系连续出现的次数。我想这就是如何编码n-gram的。但是，可能的关系数量为50，这意味着我无法使用这种方法。

欢迎任何建议。

- Syed Fahad Sultan

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- StanfordNLPHelp · Accepted Answer

我们有一个依赖路径分类器的项目。我问了开发该系统的小组成员，他说:

1. 整个路径的指标特征因此，如果你有训练数据点（动词1 -e1-> w1 -e2-> w2 -e3-> w3 -e4-> 动词2, 关系1），特征将是 (e1-e2-e3-e4)

2. 他还做了ngram序列，因此对于同样的数据点，您还将拥有 (e1), (e2), (e3), (e4), (e1-e2), (e2-e3), (e3-e4), (e1-e2-e3), (e2-e3-e4) 他还建议折叠并列边缘以使路径更短。

此外，我应该注意到，他为每个关系开发了一组高精度规则，并使用此规则创建了大量的训练数据。