有没有适用于莎士比亚英语的Lucene词干分析器?

3

我正在尝试为搜索索引一些旧文件——16、17、18世纪的文件。

现代词干处理器似乎无法处理过时的单词结尾:worketh、liveth、walketh。

是否有专门处理莎士比亚时代和《英王詹姆斯圣经》中的英语的词干处理器?我目前正在使用solr.PorterStemFilterFactory


你知道有哪些在线可用的词典文件可以与那个古老的英语一起使用吗? - cheffe
1
DOA读起来不错,但仍在进行中(截至2015年)。 - cheffe
@cheffe 我没有,但是假设我有。在Solr/Lucene中,有没有一种方法可以从字典文件中制作词干提取器? - Eric Wilson
是的,对于Solr来说,可以使用HunspellStemFilterFactory,如果您正在使用Lucene,则可以使用HunspellStemFilter本身。 - cheffe
1个回答

1

看起来对于那个问题,规则变化很小

因此,复制/修改PorterStemmer类和相关的工厂/过滤器可能是可行的。

或者在 Porter 之前添加这些特定规则作为正则表达式过滤器也可能是可行的。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接