36得票3回答
产生真实单词的词干提取算法

我需要从一段文本中提取“标签”列表。大部分很简单。然而,我现在需要帮助来对结果词汇表进行词干提取以避免重复。例如:Community / Communities。 我已经使用了Porter Stemmer算法的实现(顺便说一下,我是用PHP编写的)。 http://tartarus.org...

25得票1回答
Elasticsearch:如何列出特定索引使用的每个分析器

我需要找出特定索引中配置的分析器(类型、语言等)。我尝试了http://localhost:9200/wazzup/_mapping,但它只提供有关字段名称/类型的信息。 谢谢

23得票3回答
Lucene标准分析器 vs Snowball

刚开始学习使用Lucene.Net。我使用标准分析器索引了10万行数据,运行了一些测试查询,并发现如果原始术语是单数,则复数查询不会返回结果。我知道Snowball分析器增加了词干支持,听起来很好。但是,我想知道选择Snowball是否会有任何缺点?我会失去什么吗?还有其他可以考虑的分析器吗?

12得票7回答
是否有Java实现的Porter2词干提取器?

你知道有没有任何Java版本的Porter2词干分析器(或任何更好的用Java编写的词干分析器)? 我知道这里有一个Porter(不是Porter2)的Java版本: http://tartarus.org/~martin/PorterStemmer/java.txt 但是在http://...

12得票2回答
Python NLTK中的德语词干提取用于情感分析

我最近开始从事一个关于德语文本的情感分析项目,打算使用词干提取器来改进结果。 NLTK自带德语Snowball词干提取器,我已经尝试使用它了,但是对结果不确定。作为一名计算机科学家而不是语言学家,我对不同词干的变化形式有困惑。 以单词"suchen"(搜索)为例,第一人称单数被词干化为"s...

8得票1回答
俄语单词列表的雪球词干提取器

我知道如何对单个单词执行SnowballStemmer(在我的情况下,是俄语)。具体操作如下: from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer("russian") stemmer.ste...

8得票1回答
Java中的意大利语词干库

我正在寻找一个Java库或其他工具来对意大利语单词进行词干提取。 目的是比较意大利语单词。目前,“attacco”,“attacchi”,“attaccare”等单词被认为是不同的,但实际上我想要得到真正的比较结果。 我发现了一些像Lucene、snowball.tartarus.org等...