根据文档,我可以在nltk中加载一个带有sense标记的语料库,方法如下:
>>> from nltk.corpus import wordnet_ic
>>> brown_ic = wordnet_ic.ic('ic-brown.dat')
>>> semcor_ic = wordnet_ic.ic('ic-semcor.dat')
我还可以这样获取定义
、词性
、偏移量
和例句
:
>>> wn.synset('dog.n.01').examples
>>> wn.synset('dog.n.01').definition
但是如何从语料库中获取一个synset的频率呢?为了解答这个问题,我们需要分步讲解:
- 首先,如何计算一个synset在标记感知语料库中出现的次数?
- 然后,下一步是将该计数除以所有synsets出现次数总和,给定特定词元的计数。