18得票2回答
在NLTK中导入WordNet

我想导入wordnet词典,但当我从wordnet导入Dictionary时,出现以下错误: for l in open(WNSEARCHDIR+'/lexnames').readlines(): IOError: [Errno 2] No such file or directory: 'C...

15得票2回答
NLTK词干提取器:字符串索引超出范围。

我有一组用pickle格式存储的文本文档,我想使用nltk的PorterStemmer进行词干提取。由于项目的特定原因,我希望在Django应用程序视图中执行该操作。 然而,在Django视图中对文档进行词干提取时,对字符串'oed'使用PorterStemmer().stem()会抛出In...

14得票3回答
用Python将文本文件中的复数转换为单数

我有类似以下格式的文本文件:word, 23 Words, 2 test, 1 tests, 4 我希望它们看起来像这样:word, 23 word, 2 test, 1 test, 4 我希望能够用Python处理文本文件并将复数转为单数。这是我的代码:import nltk f = ra...

13得票1回答
WordListCorpusReader不可迭代。

所以,我刚开始使用Python和NLTK。我有一个名为reviews.csv的文件,其中包含从Amazon提取的评论。我已经对这个csv文件的内容进行了标记化处理,并将其写入了一个名为csvfile.csv的文件中。以下是代码:from nltk.tokenize import sent_to...

12得票4回答
在R中使用基础词干处理而不是根词干处理

有没有办法在使用R中的NLP进行词干提取时获取基本单词而不是根单词? 代码:> #Loading libraries > library(tm) > library(slam) > > #Vector > Vec=c("happyness happies...

12得票1回答
Python词干提取(使用pandas数据框)

我创建了一个包含需要进行词干提取的句子的数据框。 我想使用Snowballstemmer来提高分类算法的准确性。我该如何做到这一点?import pandas as pd from nltk.stem.snowball import SnowballStemmer # Use English...

12得票4回答
将字符串/文档/语料库进行R词干化

我在尝试使用R进行一些词干提取,但它似乎只能在单个文档上工作。我的最终目标是生成一个术语文档矩阵,显示每个术语在文档中的频率。 这是一个例子:require(RWeka) require(tm) require(Snowball) worder1<- c("I am taking",...

12得票4回答
词形还原的反向过程

我使用了一个Lucene Snowball分析器来进行词干处理。结果并不是有实际意义的单词。我参考了这个问题。 其中一种解决方案是使用一个包含将单词的词干版本映射到一个稳定版本的数据库。(例如,从"communiti"到"community",无论"communti"的基础是什么(如"com...

12得票3回答
使用R进行文本分析的词干提取

我在使用TM包进行大量的分析。其中最大的问题之一与词干提取和类似的转换有关。 假设我有一些与会计相关的术语(我意识到拼写问题)。 经过词干提取后,我们得到:accounts -> account account -> account accounting -&g...

12得票2回答
Python NLTK中的德语词干提取用于情感分析

我最近开始从事一个关于德语文本的情感分析项目,打算使用词干提取器来改进结果。 NLTK自带德语Snowball词干提取器,我已经尝试使用它了,但是对结果不确定。作为一名计算机科学家而不是语言学家,我对不同词干的变化形式有困惑。 以单词"suchen"(搜索)为例,第一人称单数被词干化为"s...