有没有适用于希伯来语的好的词干提取器?

11

我正在寻找一个好的希伯来语词干提取器,但使用谷歌没有找到什么有用的信息...

HebMorph网站上写道:

词干和词元原本意思不同,但对于闪族语系来说,它们似乎可以互换使用。

这是否意味着,在自然语言处理(NLP)中,我可以使用词元代替词干?需要注意的是:词干提取器比词形还原程序更简单、更小、通常更快,并且对于许多应用来说,它们的结果已经足够好了。使用词形还原程序则是浪费资源。 (来源)

谢谢。


可能是Lucene希伯来语分析器的重复问题。 - Chiron
我不知道你在Google上怎么找不到任何东西。http://wiki.apache.org/solr/LanguageAnalysis#Hebrew和https://code.google.com/p/hebstem/以及https://github.com/synhershko/HebMorph。 - Chiron
是的,我也看到了那个“hebstem”网站,但我在那里找不到任何可下载的内容。至于HebMorph-我没有看到任何关于词干提取的信息。在那里,我看到他们将“lemma”和“stem”这些术语互换使用。我现在正在查看SOLR页面,之前我没有看到过。谢谢。 - Cheshie
1个回答

4
在希伯来语中,词干提取器和词形还原器都很复杂 - 你不能像在波特词干提取器中那样根据单词的结尾裁剪字母。关于一个现有的词形还原器的实现,你可以尝试使用目前处于测试阶段且免费的http://hebrew-nlp.co.il

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接