我需要从一段文本中提取“标签”列表。大部分很简单。然而,我现在需要帮助来对结果词汇表进行词干提取以避免重复。例如:Community / Communities。 我已经使用了Porter Stemmer算法的实现(顺便说一下,我是用PHP编写的)。 http://tartarus.org...
我需要找出特定索引中配置的分析器(类型、语言等)。我尝试了http://localhost:9200/wazzup/_mapping,但它只提供有关字段名称/类型的信息。 谢谢
刚开始学习使用Lucene.Net。我使用标准分析器索引了10万行数据,运行了一些测试查询,并发现如果原始术语是单数,则复数查询不会返回结果。我知道Snowball分析器增加了词干支持,听起来很好。但是,我想知道选择Snowball是否会有任何缺点?我会失去什么吗?还有其他可以考虑的分析器吗?
你知道有没有任何Java版本的Porter2词干分析器(或任何更好的用Java编写的词干分析器)? 我知道这里有一个Porter(不是Porter2)的Java版本: http://tartarus.org/~martin/PorterStemmer/java.txt 但是在http://...
我最近开始从事一个关于德语文本的情感分析项目,打算使用词干提取器来改进结果。 NLTK自带德语Snowball词干提取器,我已经尝试使用它了,但是对结果不确定。作为一名计算机科学家而不是语言学家,我对不同词干的变化形式有困惑。 以单词"suchen"(搜索)为例,第一人称单数被词干化为"s...
我正在寻找一个Java库或其他工具来对意大利语单词进行词干提取。 目的是比较意大利语单词。目前,“attacco”,“attacchi”,“attaccare”等单词被认为是不同的,但实际上我想要得到真正的比较结果。 我发现了一些像Lucene、snowball.tartarus.org等...