142得票13回答
如何使用nltk或python去除停用词

我有一个数据集,想要去除停用词。 我使用了NLTK获得了一个停用词列表:from nltk.corpus import stopwords stopwords.words('english') 我该如何将数据与停用词列表进行比较,从而将停用词从数据中删除?

79得票6回答
使用NLTK进行停用词去除

我正在使用nltk工具包尝试通过去除停用词来处理用户输入的文本,但是在去除停用词后,“and”、“or”、“not”等单词也被删除了。由于这些单词是查询文本时需要的运算符,我希望在停用词去除过程后它们仍然存在。我不知道哪些单词可以作为查询文本中的运算符,同时我还想从我的文本中删除不必要的单词。

68得票7回答
NLTK和停用词失效 #lookuperror

我正在尝试启动一个情感分析的项目,我将使用停用词方法。我进行了一些研究,并发现nltk有停用词,但是当我执行命令时出现了错误。我的做法是,为了知道nltk使用哪些单词(就像你可能在这里找到的http://www.nltk.org/book/ch02.html的4.1节中所发现的内容一样):fr...

67得票8回答
使用Spacy添加/删除自定义停用词

如何使用spacy添加/删除停用词?我正在使用token.is_stop函数,并希望对集合进行一些自定义更改。我查看了文档,但没有找到任何有关停用词的信息。谢谢!

60得票6回答
Python中更快的去除停用词的方法

我正在尝试从一段文本中移除停用词:from nltk.corpus import stopwords text = 'hello bye the the hi' text = ' '.join([word for word in text.split() if word not in (sto...

37得票1回答
向scikit-learn的CountVectorizer停用词列表中添加单词

Scikit-learn的CountVectorizer类允许您将字符串'english'传递给stop_words参数。 我想将一些内容添加到这个预定义列表中。 有人可以告诉我如何做到这一点吗? Scikit-learn的CountVectorizer类允许在stop_words参数中传递...

29得票3回答
SQL 2008:关闭全文搜索查询中的停用词

我很难找到一个好的解决方案: 假设有一张名为“公司”的表,其中有一个名为“名称”的列,我在这一列上建立了一个全文索引。如果用户搜索“非常好的公司”,我的查询语句将是:SELECT * FROM Company WHERE CONTAINS(Name, '"Very" ...

29得票3回答
在sklearn的TfidfVectorizer中添加停用词列表中的单词

我想在TfidfVectorizer中添加一些停用词。我按照此解决方案,将我的停用词列表中包含了英文的停用词和我指定的停用词。但是TfidfVectorizer仍然不接受我的停用词列表,我仍然可以在我的特征列表中看到那些词语。以下是我的代码:from sklearn.feature_extra...

25得票1回答
Lucene的StopFilter默认使用哪些停用词列表?

Lucene有一个默认的停用词过滤器 (http://lucene.apache.org/core/4_0_0/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html),有人知道列表中有哪些单词吗?

23得票10回答
将单词添加到nltk停用词列表

我有一些从数据集中删除停用词的代码,因为停用词列表似乎没有删除我想要删除的大部分单词,所以我想要添加单词到这个停用词列表中,以便在这种情况下将它们删除。我正在使用以下代码来删除停用词:word_list2 = [w.strip() for w in word_list if w.strip()...