7得票2回答
无法在nltk中使用斯坦福POS标记器

我正在尝试使用NLTK中的Stanford POS标注器。我正在使用此处显示的示例:http://www.nltk.org/api/nltk.tag.html#module-nltk.tag.stanford。我能够顺利加载所有内容: >>> import os >&...

7得票3回答
POS-Tagger非常缓慢。

我正在使用nltk生成n-gram,首先删除给定的停止词。然而,在我的CPU(Intel i7)上,nltk.pos_tag()非常缓慢,最高可达0.6秒。 输出结果: ['The first time I went, and was completely taken by the liv...

7得票1回答
宾州树库词性标注集为什么单独为单词'to'设置了一个标签?

宾州树库标记集有一个单独的标记TO用于单词“to”,无论它是用作介词(例如I went to school)还是用作不定式(例如I want to eat)。从整体自然语言处理的角度来看,这有什么用处?仅仅将不定式中的“to”进行标记是很直观的,但我没有看到将不定式和介词组合成一个标记的逻辑。...

7得票2回答
Korean, Thai and Indonesian POS 标注器

有人能推荐一款针对韩语、印尼语、泰语和越南语的开源POS标注器吗? 我想用它来标记我目前拥有的语料库数据。(例如斯坦福POS标注器) 如果你是开发人员,并愿意分享并让我测试这个POS标注器,我也不介意。 我已经使用jvntextpro对越南语数据进行了一些输出修改的POS标注,但我仍希望...

7得票2回答
如何在scikit-learn中使用非整数字符串标签进行支持向量机(SVM)分类?Python

Scikit-learn为机器学习提供了相当用户友好的Python模块。 我正在尝试训练一个SVM标记器,用于自然语言处理(NLP),其中我的标签和输入数据是单词和注释。例如,词性标注,而不是使用双/整数数据作为输入元组[[1,2], [2,0]],我的元组将看起来像这样[['word', ...