在NLTK解析器语法中混合单词和PoS标签

4
我已经使用NLTK一段时间了,现在想定义自定义解析器语法以实现特殊块处理。我正在遵循http://nltk.googlecode.com/svn/trunk/doc/book/ch07.html中的描述,但我想做的与该章节描述的略有不同。例如,在7.10示例中,我们可以使用以下动词短语: VP:{<VB.*><NP|PP|CLAUSE>+$} 我只想匹配使用一个特定动词而不是任何动词的句子。像这样: VP: {go<NP|PP|CLAUSE>+$}
换句话说,我想匹配实际单词而不是单词的PoS标记,并在正则表达式中混合和匹配实际单词和PoS标记。
这种可能吗?

1
也许您可以预处理语料库,将“go”的词性标签从“VB”更改为“GO”,然后使用标准设置? - dmh
1个回答

1
不是使用nltk pos-tagger生成的标准PoS标签。
如果需要对不同动词进行语法分析,一个有用的技巧可能是预处理标签,并将令牌附加到所有动词的标签后面。因此,您可以使用类似于VP:{+$}的正则表达式字符串。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接