得票数最多 'snowball' 问题

关联标签

36得票3回答

我需要从一段文本中提取“标签”列表。大部分很简单。然而，我现在需要帮助来对结果词汇表进行词干提取以避免重复。例如：Community / Communities。我已经使用了Porter Stemmer算法的实现（顺便说一下，我是用PHP编写的）。 http://tartarus.org...

25得票1回答

我需要找出特定索引中配置的分析器（类型、语言等）。我尝试了http://localhost:9200/wazzup/_mapping，但它只提供有关字段名称/类型的信息。谢谢

23得票3回答

刚开始学习使用Lucene.Net。我使用标准分析器索引了10万行数据，运行了一些测试查询，并发现如果原始术语是单数，则复数查询不会返回结果。我知道Snowball分析器增加了词干支持，听起来很好。但是，我想知道选择Snowball是否会有任何缺点？我会失去什么吗？还有其他可以考虑的分析器吗？

12得票7回答

你知道有没有任何Java版本的Porter2词干分析器(或任何更好的用Java编写的词干分析器)? 我知道这里有一个Porter（不是Porter2）的Java版本: http://tartarus.org/~martin/PorterStemmer/java.txt 但是在http://...

12得票2回答

我最近开始从事一个关于德语文本的情感分析项目，打算使用词干提取器来改进结果。 NLTK自带德语Snowball词干提取器，我已经尝试使用它了，但是对结果不确定。作为一名计算机科学家而不是语言学家，我对不同词干的变化形式有困惑。以单词"suchen"(搜索)为例，第一人称单数被词干化为"s...

8得票1回答

我知道如何对单个单词执行SnowballStemmer（在我的情况下，是俄语）。具体操作如下： from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer("russian") stemmer.ste...

8得票1回答

我正在寻找一个Java库或其他工具来对意大利语单词进行词干提取。目的是比较意大利语单词。目前，“attacco”，“attacchi”，“attaccare”等单词被认为是不同的，但实际上我想要得到真正的比较结果。我发现了一些像Lucene、snowball.tartarus.org等...