12得票1回答
Python词干提取(使用pandas数据框)

我创建了一个包含需要进行词干提取的句子的数据框。 我想使用Snowballstemmer来提高分类算法的准确性。我该如何做到这一点?import pandas as pd from nltk.stem.snowball import SnowballStemmer # Use English...

11得票1回答
有没有适用于希伯来语的好的词干提取器?

我正在寻找一个好的希伯来语词干提取器,但使用谷歌没有找到什么有用的信息... 在HebMorph网站上写道: 词干和词元原本意思不同,但对于闪族语系来说,它们似乎可以互换使用。 这是否意味着,在自然语言处理(NLP)中,我可以使用词元代替词干?需要注意的是:词干提取器比词形还原程序更简单...

7得票3回答
如何在R中优化词干提取和拼写检查的性能?

我有大约1.4百万份文件,每个文件平均包含字符数为(Median:250和Mean:470)。 我希望在对它们进行分类之前,执行拼写检查和词干处理。 模拟文档: sentence <- "We aree drivng as fast as we drove yestrday or ...

9得票2回答
获取英文单词的基本形式

我想获取一个英语单词的基本形式,该单词是从其基本形式修改而来。这个问题曾经在这里被问过,但我没有看到一个合适的答案,所以我试着这样做。我尝试了NLTK包中的两个词干提取器和一个词形还原器,它们分别是波特词干提取器、雪球词干提取器和WordNet词形还原器。 我尝试了这段代码: from n...

10得票4回答
印度语言是否有任何词干提取器可用?

是否有针对印度语言(例如印地语、泰卢固语)的词干分析实现可用...

10得票5回答
我需要一个Java阿拉伯语词干提取器。

我正在寻找一个Java词干提取器来处理阿拉伯语。 我发现了一个名为"AraMorph"的库,但它的输出无法控制,并且会形成一些不需要的单词。 是否有其他适用于阿拉伯语的词干提取器?

15得票2回答
NLTK词干提取器:字符串索引超出范围。

我有一组用pickle格式存储的文本文档,我想使用nltk的PorterStemmer进行词干提取。由于项目的特定原因,我希望在Django应用程序视图中执行该操作。 然而,在Django视图中对文档进行词干提取时,对字符串'oed'使用PorterStemmer().stem()会抛出In...

7得票3回答
我应该同时进行词形还原和词干提取吗?

我正在用Python编写一个文本分类系统。这是我规范化每个标记的方法: lem, stem = WordNetLemmatizer(), PorterStemmer() for doc in corpus: for word in doc: lemma = stem....

12得票4回答
将字符串/文档/语料库进行R词干化

我在尝试使用R进行一些词干提取,但它似乎只能在单个文档上工作。我的最终目标是生成一个术语文档矩阵,显示每个术语在文档中的频率。 这是一个例子:require(RWeka) require(tm) require(Snowball) worder1<- c("I am taking",...

7得票2回答
Snowball词干提取器只对最后一个单词进行词干提取

我希望使用R语言的tm包对一个纯文本文档的语料库进行词干提取。但是,当我将SnowballStemmer函数应用于语料库中的所有文档时,只有每个文档的最后一个单词被提取了。 library(tm) library(Snowball) library(RWeka) library(rJava)...