最新 'stemming' 问题

关联标签

12得票1回答

我创建了一个包含需要进行词干提取的句子的数据框。我想使用Snowballstemmer来提高分类算法的准确性。我该如何做到这一点？import pandas as pd from nltk.stem.snowball import SnowballStemmer # Use English...

11得票1回答

我正在寻找一个好的希伯来语词干提取器，但使用谷歌没有找到什么有用的信息... 在HebMorph网站上写道: 词干和词元原本意思不同，但对于闪族语系来说，它们似乎可以互换使用。这是否意味着，在自然语言处理（NLP）中，我可以使用词元代替词干？需要注意的是：词干提取器比词形还原程序更简单...

7得票3回答

我有大约1.4百万份文件，每个文件平均包含字符数为(Median:250和Mean:470)。我希望在对它们进行分类之前，执行拼写检查和词干处理。模拟文档： sentence <- "We aree drivng as fast as we drove yestrday or ...

9得票2回答

我想获取一个英语单词的基本形式，该单词是从其基本形式修改而来。这个问题曾经在这里被问过，但我没有看到一个合适的答案，所以我试着这样做。我尝试了NLTK包中的两个词干提取器和一个词形还原器，它们分别是波特词干提取器、雪球词干提取器和WordNet词形还原器。我尝试了这段代码： from n...

10得票4回答

是否有针对印度语言（例如印地语、泰卢固语）的词干分析实现可用...

10得票5回答

我正在寻找一个Java词干提取器来处理阿拉伯语。我发现了一个名为"AraMorph"的库，但它的输出无法控制，并且会形成一些不需要的单词。是否有其他适用于阿拉伯语的词干提取器？

15得票2回答

我有一组用pickle格式存储的文本文档，我想使用nltk的PorterStemmer进行词干提取。由于项目的特定原因，我希望在Django应用程序视图中执行该操作。然而，在Django视图中对文档进行词干提取时，对字符串'oed'使用PorterStemmer().stem()会抛出In...

7得票3回答

我正在用Python编写一个文本分类系统。这是我规范化每个标记的方法： lem, stem = WordNetLemmatizer(), PorterStemmer() for doc in corpus: for word in doc: lemma = stem....

12得票4回答

我在尝试使用R进行一些词干提取，但它似乎只能在单个文档上工作。我的最终目标是生成一个术语文档矩阵，显示每个术语在文档中的频率。这是一个例子：require(RWeka) require(tm) require(Snowball) worder1<- c("I am taking",...

7得票2回答

我希望使用R语言的tm包对一个纯文本文档的语料库进行词干提取。但是，当我将SnowballStemmer函数应用于语料库中的所有文档时，只有每个文档的最后一个单词被提取了。 library(tm) library(Snowball) library(RWeka) library(rJava)...