12得票6回答
如何在SQLite查询中忽略冠词(“the”,“a”等)进行排序?

我正在使用C#从SQLite数据库中调取电影标题列表并进行展示。目前,我使用的是自定义的ListBox类,其中有一个函数可以对文本进行排序,并从每个条目开头剥离单词“the”。然而,这似乎不是最简单的方法,因为它会从SQLite数据库中提取数据,然后进行排序。我希望将其简化为一步,希望在我的“...

12得票1回答
为什么这些词被认为是停用词?

我没有自然语言处理的正式背景,想知道NLP方面的人能否对此进行解释。我正在使用NLTK库,并且特别关注该软件包提供的停用词函数: In [80]:nltk.corpus.stopwords.words('english') Out[80]: ['i', 'me',...

12得票1回答
如何在NLTK中添加更多语言的停用词?

我正在使用带有停用词的NLTK来检测文档语言,使用了Alejandro Nolla在http://blog.alejandronolla.com/2013/05/15/detecting-text-language-with-python-and-nltk/中描述的方法,它运行得相当不错。 ...

12得票2回答
如何使用tf-idf选择停用词?(非英语语料库)

我已经成功地评估了给定语料库的tf-idf函数。如何找到每个文档的停用词和最佳单词?我理解,对于给定单词和文档来说,tf-idf值较低意味着它不是选择该文档的好单词。

12得票4回答
我能否自定义Elastic Search使用我的停用词列表?

具体来说,我希望能够对所有内容(例如整个网站)进行无停用词列表的索引。 ElasticSearch是否足够灵活且易于更改?

11得票9回答
用Java Arraylist通过索引删除多个元素

这是我的代码:for (int i = 0; i < myarraylist.size(); i++) { for (int j = 0; j < stopwords.size(); j++) { if (stopwords.get(j).e...

11得票1回答
词干提取对术语频率的影响是什么?

去除停用词和词干提取对术语频率(TF)和逆文档频率(IDF)有何影响? 谢谢!

11得票4回答
如何从字符串列表中删除单词列表

如果问题有点令人困惑,我很抱歉。这类似于此问题 我认为上面的问题接近我所想要的,但是用的是Clojure语言。 还有另一个问题 我需要类似那个问题中 '[br]' 的功能,不过我需要搜索并删除一个字符串列表中的所有字符串。 希望我表达清楚了。 我认为这是因为Python中的字符串不可...

11得票3回答
如何获取我所使用的全文目录中的停用词列表?

有没有一种方法可以获取我的SQL Server 2008全文目录正在使用的停用词列表? 并在我的C#代码后端中使用它? 我想在一个ASP.NET页面中使用它来搜索术语并突出显示它们。 搜索页面和高亮显示已经正常工作,但我想改进高亮显示。 我不想突出显示我的停用词列表中的单词。

11得票1回答
在PostgreSQL中去除停用词但不进行词干提取

我想从我的数据中删除停用词,但我不想对单词进行词干处理,因为准确的单词对我很重要。我使用了这个查询。SELECT to_tsvector('english',colName)from tblName order by lower asc; 有没有办法在不对单词进行词干提取的情况下删除停用词? 谢谢