我正在为一些英语文本生成一些统计数据,并且希望跳过像"a"和"the"这样的不重要的单词。
- 我在哪里可以找到这些无用词的列表?
- 这些词的列表是否与英语中最常用的单词的列表相同?
更新:显然这些被称为“停用词”,而不是“跳过词”。
我正在为一些英语文本生成一些统计数据,并且希望跳过像"a"和"the"这样的不重要的单词。
更新:显然这些被称为“停用词”,而不是“跳过词”。
否则,Google返回的列表应该是可以使用的。Porter Stemmer 使用此功能,Lucene搜索引擎实现使用此功能。
获取大型文本语料库中单词频率的统计信息。忽略所有频率>某个数字的单词。
{ Word Count }
我曾经在一段时间前使用了来自这里的德语停用词列表,在构建一个基于lucene.net的搜索应用程序时。该网站还包含了英文停用词列表,而且该网站上的列表显然是lucene项目默认使用的列表。