如果我将一个自定义的停用词列表传递给
TfidfVectorizer
,那么停用词什么时候被移除呢?根据文档:
因此,似乎这个过程是在分词之后进行的,对吗?疑问是因为如果分词还涉及词干处理,那么我认为存在误判(而不是移除)停用词的风险,因为经过词干处理后,它们不再被识别。stop_words :
string
{‘english’},list
, orNone
(default)...
如果是一个列表,则假定该列表包含停用词,所有这些停用词都将从结果标记中删除。仅适用于
analyzer == 'word'
。
tokens = [w for w in tokens if w not in stop_words]
正是 scikit-learn 所做的,可以查看我提供的 GitHub 链接。之后它会处理 n-grams。 - Maxim