我正在尝试实现动词对之间的关系抽取。我想使用从一个动词到另一个动词的依存路径作为分类器的特征(用于预测是否存在关系X)。但是我不确定如何将依存路径编码为特征。以下是一些例子依存路径,它们是来自StanfordCoreNLP Collapsed Dependencies的以空格分隔的关系注释:
nsubj acl nmod:from acl nmod:by conj:and
nsubj nmod:into
nsubj acl:relcl advmod nmod:of
需要牢记的是这些路径的长度是可变的,并且一个关系可能会在没有任何限制的情况下重新出现。
我想到了两种妥协的编码方法:
1)忽略序列,只为每个关系拥有一个特征,其值为其在路径中出现次数的数量。
2)具有长度为n的滑动窗口,并为每个可能的关系对拥有一个特征,其值为这两个关系连续出现的次数。我想这就是如何编码n-gram的。但是,可能的关系数量为50,这意味着我无法使用这种方法。
欢迎任何建议。