我想在Python中使用WordNet词形还原器,了解到默认的词性标记是NOUN,并且除非将词性标记明确指定为VERB,否则它不会输出动词的正确词形还原结果。
我的问题是,如何最好地准确执行上述词形还原操作?
我使用了nltk.pos_tag
进行了词性标注,但我不知道如何将树库词性标记集成到与WordNet兼容的词性标记中。请帮忙。
from nltk.stem.wordnet import WordNetLemmatizer
lmtzr = WordNetLemmatizer()
tagged = nltk.pos_tag(tokens)
我得到了标记为NN、JJ、VB和RB的输出标签。我如何将它们更改为与wordnet兼容的标签?
另外,我是否需要使用已标记语料库来训练nltk.pos_tag()
,还是可以直接在我的数据上使用它进行评估?