得票数最多 'stop-words' 问题

关联标签

142得票13回答

如何使用nltk或python去除停用词

我有一个数据集，想要去除停用词。我使用了NLTK获得了一个停用词列表：from nltk.corpus import stopwords stopwords.words('english') 我该如何将数据与停用词列表进行比较，从而将停用词从数据中删除？

pythonnltkstop-words

79得票6回答

使用NLTK进行停用词去除

我正在使用nltk工具包尝试通过去除停用词来处理用户输入的文本，但是在去除停用词后，“and”、“or”、“not”等单词也被删除了。由于这些单词是查询文本时需要的运算符，我希望在停用词去除过程后它们仍然存在。我不知道哪些单词可以作为查询文本中的运算符，同时我还想从我的文本中删除不必要的单词。

pythonnlpnltkstop-words

68得票7回答

NLTK和停用词失效 #lookuperror

我正在尝试启动一个情感分析的项目，我将使用停用词方法。我进行了一些研究，并发现nltk有停用词，但是当我执行命令时出现了错误。我的做法是，为了知道nltk使用哪些单词（就像你可能在这里找到的http://www.nltk.org/book/ch02.html的4.1节中所发现的内容一样）：fr...

pythonnltksentiment-analysisstop-words

67得票8回答

使用Spacy添加/删除自定义停用词

如何使用spacy添加/删除停用词？我正在使用token.is_stop函数，并希望对集合进行一些自定义更改。我查看了文档，但没有找到任何有关停用词的信息。谢谢！

pythonnlpstop-wordsspacy

60得票6回答

Python中更快的去除停用词的方法

我正在尝试从一段文本中移除停用词：from nltk.corpus import stopwords text = 'hello bye the the hi' text = ' '.join([word for word in text.split() if word not in (sto...

pythonregexstop-words

37得票1回答

向scikit-learn的CountVectorizer停用词列表中添加单词

Scikit-learn的CountVectorizer类允许您将字符串'english'传递给stop_words参数。我想将一些内容添加到这个预定义列表中。有人可以告诉我如何做到这一点吗？ Scikit-learn的CountVectorizer类允许在stop_words参数中传递...

pythonscikit-learnstop-words

29得票3回答

SQL 2008：关闭全文搜索查询中的停用词

我很难找到一个好的解决方案：假设有一张名为“公司”的表，其中有一个名为“名称”的列，我在这一列上建立了一个全文索引。如果用户搜索“非常好的公司”，我的查询语句将是：SELECT * FROM Company WHERE CONTAINS(Name, '"Very" ...

sql-server-2008full-text-searchstop-words

29得票3回答

在sklearn的TfidfVectorizer中添加停用词列表中的单词

我想在TfidfVectorizer中添加一些停用词。我按照此解决方案，将我的停用词列表中包含了英文的停用词和我指定的停用词。但是TfidfVectorizer仍然不接受我的停用词列表，我仍然可以在我的特征列表中看到那些词语。以下是我的代码：from sklearn.feature_extra...

pythonscikit-learnclassificationstop-wordstext-classification

25得票1回答

Lucene的StopFilter默认使用哪些停用词列表？

Lucene有一个默认的停用词过滤器 (http://lucene.apache.org/core/4_0_0/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html)，有人知道列表中有哪些单词吗？

javaapacheluceneinformation-retrievalstop-words

23得票10回答

将单词添加到nltk停用词列表

我有一些从数据集中删除停用词的代码，因为停用词列表似乎没有删除我想要删除的大部分单词，所以我想要添加单词到这个停用词列表中，以便在这种情况下将它们删除。我正在使用以下代码来删除停用词：word_list2 = [w.strip() for w in word_list if w.strip()...

pythonnltkstop-words