当使用sklearn TfidfVectorizer时，停用词移除过程是在什么时候执行的？

Question

5

如果我将一个自定义的停用词列表传递给TfidfVectorizer，那么停用词什么时候被移除呢？根据文档：

stop_words : string {‘english’}, list, or None (default)

...

如果是一个列表，则假定该列表包含停用词，所有这些停用词都将从结果标记中删除。仅适用于analyzer == 'word'。

因此，似乎这个过程是在分词之后进行的，对吗？疑问是因为如果分词还涉及词干处理，那么我认为存在误判（而不是移除）停用词的风险，因为经过词干处理后，它们不再被识别。

- Eugenio

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Maxim · Accepted Answer

您说得对。在分词完成后，stop_words被应用于已经获取的标记，并转换为n-gram序列，详见feature_extraction/text.py。分词器接收经过预处理的文本，不涉及停用词。

默认的分词器不会转换文本，但如果您提供自己的分词器以执行诸如词干提取之类的操作，则需要同时对停用词进行词干提取。或者，您可以在分词器函数内部直接进行过滤。