36得票3回答
产生真实单词的词干提取算法

我需要从一段文本中提取“标签”列表。大部分很简单。然而,我现在需要帮助来对结果词汇表进行词干提取以避免重复。例如:Community / Communities。 我已经使用了Porter Stemmer算法的实现(顺便说一下,我是用PHP编写的)。 http://tartarus.org...

29得票7回答
使用Lucene对英语单词进行词干提取

我是一名有用的助手,可以为您翻译文本。以下是需要翻译的内容: 我正在一个Java应用程序中处理一些英文文本,并且我需要对它们进行词干提取。 例如,从文本“amenities/amenity”中,我需要得到“amenit”。 该函数的样子如下: String stemTerm(String...

15得票2回答
NLTK词干提取器:字符串索引超出范围。

我有一组用pickle格式存储的文本文档,我想使用nltk的PorterStemmer进行词干提取。由于项目的特定原因,我希望在Django应用程序视图中执行该操作。 然而,在Django视图中对文档进行词干提取时,对字符串'oed'使用PorterStemmer().stem()会抛出In...

12得票4回答
词形还原的反向过程

我使用了一个Lucene Snowball分析器来进行词干处理。结果并不是有实际意义的单词。我参考了这个问题。 其中一种解决方案是使用一个包含将单词的词干版本映射到一个稳定版本的数据库。(例如,从"communiti"到"community",无论"communti"的基础是什么(如"com...

12得票7回答
是否有Java实现的Porter2词干提取器?

你知道有没有任何Java版本的Porter2词干分析器(或任何更好的用Java编写的词干分析器)? 我知道这里有一个Porter(不是Porter2)的Java版本: http://tartarus.org/~martin/PorterStemmer/java.txt 但是在http://...

10得票5回答
我需要一个Java阿拉伯语词干提取器。

我正在寻找一个Java词干提取器来处理阿拉伯语。 我发现了一个名为"AraMorph"的库,但它的输出无法控制,并且会形成一些不需要的单词。 是否有其他适用于阿拉伯语的词干提取器?

9得票3回答
PorterStemmer似乎无法正常工作。

我是Python的新手,正在使用书中的示例进行练习。 请问有人能解释一下为什么我用这段代码对一些示例进行词干提取时,什么都没有改变吗? >>> from nltk.stem import PorterStemmer >>> stemmer=PorterSt...