词干提取 - 代码示例或开源项目?

6

词干提取在标记系统中是必需的。我使用delicious,没有时间管理和修剪我的标签。我对我的博客更加小心,但它并不完美。如果嵌入式系统的软件包括词干提取,那么它们将更加功能强大(对用户有帮助)。

例如:
Parse
Parser
Parsing

应该在我要输入它们的任何系统中具有相同的含义。

理想情况下,应该有一个BSD许可的词干提取器,但如果没有,我应该去哪里了解常见的算法和技术呢?

除了BSD词干提取器,还有哪些其他开源许可证的词干提取器?

-亚当


有人需要将http://snowball.tartarus.org/添加为答案(提示,提示)... - Adam Davis
但我想看看其他的,特别是有关所使用算法的更多信息。 - Adam Davis
FYI:Snowball有一个可供下载的算法包。 - Jeremy L
@Adam:我快到那里了 :) - Jon Skeet
4个回答

5

5

2

1

Lucene应该有一个词干提取器(stemmer),我相信(IIRC)它允许你使用自己的词干提取器。

编辑:刚刚检查了一下,Lucene引用了Snowball网站,这是一个开源的词干提取库。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接