21得票3回答
如何在R中高效地从ngram标记列表中去除停用词

这是一个对于一种我已经能够低效地完成的操作提出改进的呼吁:使用“停用词”过滤一系列n-gram标记,使得任何停用词出现在n-gram中都会触发移除。 我非常希望有一个解决方案可以同时适用于unigrams和n-grams,虽然有一个“固定”的标志和一个“正则表达式”的标志也可以。我把问题的两...

21得票6回答
英语中的“停用词”列表?

我正在为一些英语文本生成一些统计数据,并且希望跳过像"a"和"the"这样的不重要的单词。 我在哪里可以找到这些无用词的列表? 这些词的列表是否与英语中最常用的单词的列表相同? 更新:显然这些被称为“停用词”,而不是“跳过词”。

20得票4回答
Java中的分词器、停用词去除和词干提取

我正在寻找一个类或方法,可以对长串的数百个单词进行分词、去除停用词并进行词干提取,以供信息检索系统使用。 例如: "The big fat cat, said 'your funniest guy i know' to the kangaroo..." 分词器将删除标点符号,并返...

20得票4回答
用户警告:您的停用词可能与您的预处理不一致。

我正在按照这个文档聚类教程进行操作。我提供了一个txt文件作为输入,可以在这里下载。它是三个其他txt文件的组合,使用\n分割。在创建tf-idf矩阵后,我收到了以下警告: ,,UserWarning: Your stop_words may be inconsistent with you...

19得票3回答
NLTK可用的停用词语言

我正在寻找NLTK停用词支持的完整语言列表(以及它们的键),不过在https://pypi.org/project/stop-words/网站上只能找到一个列表,但其中并不包含每个国家的键。因此,如果您只是简单地使用stopwords.words("Bulgarian"),将会出现错误。 我...

18得票3回答
即使停用词列表为空,如果包含停用词,则全文搜索功能无法工作。

我希望能够搜索每个单词,因此我已清除了停用词列表。然后我重新建立了索引。但是,如果我输入一个包含停用词的搜索表达式,它仍然不返回任何行。如果我省略停用词,我可以获得结果。例如,“double wear stay in place”-没有结果,“double wear stay place”-我...

17得票6回答
在R tm中添加自定义停用词

我在R中使用tm软件包拥有一个语料库。 我正在使用removeWords函数来去除停用词。 我在R中使用tm包创建了一个语料库,现在我想使用removeWords函数去除停用词。tm_map(abs, removeWords, stopwords("english")) 有没有办法将我自己...

15得票1回答
NLTK停用词列表

我有下面的代码,尝试将停用词列表应用于单词列表。然而结果仍然显示像“a”和“the”这样的单词,我认为这些单词应该已经被此过程移除了。任何想法出了什么问题会很棒。import nltk from nltk.corpus import stopwords word_list = open("x...

14得票6回答
忽略MySQL全文检索中的停用词在查询中。

我正在为网站构建搜索功能,使用了全文搜索。搜索本身效果很好,这不是我的问题。我将用户提供的关键词(MATCH...AGAINST...)用AND连接起来,以便进一步缩小结果范围。现在,我知道某些停止词没有索引,对我来说没关系,我真的不想将它们用作选择标准。但是,如果用户提供的关键词集中有停用词...

13得票4回答
使用NLTK去除停用词和对文档进行分词

我正在使用nltk遇到了困难,无法将一个.text文件进行分词和处理。我一直收到以下错误提示:AttributeError: 'list' object has no attribute 'lower'。 虽然这是我第一次尝试这样做,但我真的想不出自己哪里做错了。以下是我的代码,如果有任何建...