11得票1回答
词干提取对术语频率的影响是什么?

去除停用词和词干提取对术语频率(TF)和逆文档频率(IDF)有何影响? 谢谢!

11得票1回答
有没有适用于希伯来语的好的词干提取器?

我正在寻找一个好的希伯来语词干提取器,但使用谷歌没有找到什么有用的信息... 在HebMorph网站上写道: 词干和词元原本意思不同,但对于闪族语系来说,它们似乎可以互换使用。 这是否意味着,在自然语言处理(NLP)中,我可以使用词元代替词干?需要注意的是:词干提取器比词形还原程序更简单...

10得票3回答
对意大利语句子进行词形还原以进行频率统计

我想对一些意大利文本进行词形还原,以便对单词进行频率计数和进一步研究词形还原内容的输出。 我更喜欢词形还原而不是词干提取,因为我可以从句子上下文中提取单词的含义(例如区分动词和名词),并获得语言中存在的单词,而不是那些通常没有含义的单词根。 我发现了一个名为pattern的库(pip2 i...

10得票5回答
我需要一个Java阿拉伯语词干提取器。

我正在寻找一个Java词干提取器来处理阿拉伯语。 我发现了一个名为"AraMorph"的库,但它的输出无法控制,并且会形成一些不需要的单词。 是否有其他适用于阿拉伯语的词干提取器?

10得票2回答
使用 Apache Lucene 进行词形还原

我正在使用Apache Lucene开发一个文本分析项目。我需要对一些文本进行词形归并(将单词转换为它们的标准形式)。我已经编写了代码进行词干提取(stemming)。使用它,我可以将以下句子转换为: "stem part word never chang even when morphol...

10得票3回答
Java中的词干库

有没有 Java 的词干库可以使用呢?

10得票4回答
印度语言是否有任何词干提取器可用?

是否有针对印度语言(例如印地语、泰卢固语)的词干分析实现可用...

9得票2回答
如何在Solr中配置词干处理?

我将Solr索引添加了“American”。当我搜索“America”时,没有结果。 应该如何配置schema.xml以获得结果? 当前配置: <fieldType name="text" class="solr.TextField" positionIncrementGap="1...

9得票2回答
获取英文单词的基本形式

我想获取一个英语单词的基本形式,该单词是从其基本形式修改而来。这个问题曾经在这里被问过,但我没有看到一个合适的答案,所以我试着这样做。我尝试了NLTK包中的两个词干提取器和一个词形还原器,它们分别是波特词干提取器、雪球词干提取器和WordNet词形还原器。 我尝试了这段代码: from n...

8得票1回答
俄语单词列表的雪球词干提取器

我知道如何对单个单词执行SnowballStemmer(在我的情况下,是俄语)。具体操作如下: from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer("russian") stemmer.ste...