29得票3回答
SQL 2008:关闭全文搜索查询中的停用词

我很难找到一个好的解决方案: 假设有一张名为“公司”的表,其中有一个名为“名称”的列,我在这一列上建立了一个全文索引。如果用户搜索“非常好的公司”,我的查询语句将是:SELECT * FROM Company WHERE CONTAINS(Name, '"Very" ...

20得票4回答
Java中的分词器、停用词去除和词干提取

我正在寻找一个类或方法,可以对长串的数百个单词进行分词、去除停用词并进行词干提取,以供信息检索系统使用。 例如: "The big fat cat, said 'your funniest guy i know' to the kangaroo..." 分词器将删除标点符号,并返...

21得票6回答
英语中的“停用词”列表?

我正在为一些英语文本生成一些统计数据,并且希望跳过像"a"和"the"这样的不重要的单词。 我在哪里可以找到这些无用词的列表? 这些词的列表是否与英语中最常用的单词的列表相同? 更新:显然这些被称为“停用词”,而不是“跳过词”。

10得票5回答
Solr无法找到stopwords_en.txt资源。

我正在尝试使用Django-haystack Beta 2.0.0配置Solr 3.6.0。运行./manage.py build_solr_schema并将schema.xml移动到conf目录后,访问http://localhost:8983/solr/admin时,会收到与此线程中产生的...

11得票1回答
在PostgreSQL中去除停用词但不进行词干提取

我想从我的数据中删除停用词,但我不想对单词进行词干处理,因为准确的单词对我很重要。我使用了这个查询。SELECT to_tsvector('english',colName)from tblName order by lower asc; 有没有办法在不对单词进行词干提取的情况下删除停用词? 谢谢

8得票4回答
如何在词云中添加额外的停用词?

我想将某些词语添加到默认的停用词列表中,这些词语将会用于生成词云。当前代码: all_text = " ".join(rev for rev in twitter_clean.text) stop_words = ["https", "co", "RT"] wordcloud = WordC...

19得票3回答
NLTK可用的停用词语言

我正在寻找NLTK停用词支持的完整语言列表(以及它们的键),不过在https://pypi.org/project/stop-words/网站上只能找到一个列表,但其中并不包含每个国家的键。因此,如果您只是简单地使用stopwords.words("Bulgarian"),将会出现错误。 我...

12得票4回答
我能否自定义Elastic Search使用我的停用词列表?

具体来说,我希望能够对所有内容(例如整个网站)进行无停用词列表的索引。 ElasticSearch是否足够灵活且易于更改?

12得票1回答
如何在NLTK中添加更多语言的停用词?

我正在使用带有停用词的NLTK来检测文档语言,使用了Alejandro Nolla在http://blog.alejandronolla.com/2013/05/15/detecting-text-language-with-python-and-nltk/中描述的方法,它运行得相当不错。 ...

25得票1回答
Lucene的StopFilter默认使用哪些停用词列表?

Lucene有一个默认的停用词过滤器 (http://lucene.apache.org/core/4_0_0/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html),有人知道列表中有哪些单词吗?