用NLTK进行西班牙语POS标注?

3

我刚接触NLTK库,想知道是否可以使用NLTK对西班牙语语料库进行词性标注。在网上做了一些研究后,我发现spaghetti-tagger只有二元和一元标注器。是否可能使用NLTK对西班牙语语料库进行词性标注呢?


你需要哪些其他机器学习方法/特征来训练你所需的西班牙标注器?我会尽力在有空的时候为“spaghetti-tagger”添加新的算法/特征。顺便说一句,谢谢你关注“spaghetti-tagger”,它是我写的。 - alvas
1个回答

1
你可以尝试使用TnT的原生Python实现或Hunpos的包装器:两者都应该很好用。
然而,还有另一个工具叫做PurePos,我开发了它,它是用JAVA编写的,并且也有Python接口。有一个演示可以帮助你开始使用这个工具。

我应该使用pip安装它吗?它支持西班牙语吗? - anon
我建议从代码库下载Python封装器,然后将其引入项目中。(它尚未发布。)该工具旨在与语言无关(非常类似于TnT或HunPos)。你只需要一个带有标注的语料库,就可以开始训练工具并用它进行标记。 - oroszgy
你有没有使用它的教程? - anon

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接