向scikit-learn的CountVectorizer停用词列表中添加单词

Question

37

Scikit-learn的CountVectorizer类允许您将字符串'english'传递给stop_words参数。我想将一些内容添加到这个预定义列表中。有人可以告诉我如何做到这一点吗？

Scikit-learn的CountVectorizer类允许在stop_words参数中传递字符串“english”。如果想要添加其他内容到该预定义列表中，可以如何实现呢？

- statsNoob

你的意思是你想要默认的 'english' stop_words 加上一些你自己的额外内容吗？ - jonrsharpe

这篇帖子是救命恩人。 - TheM00s3

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- jonrsharpe · Accepted Answer

根据sklearn.feature_extraction.text的源代码，完整的列表（实际上是一个frozenset，来自于stop_words）ENGLISH_STOP_WORDS通过__all__暴露出来。因此，如果您想使用该列表以及更多项目，可以执行以下操作：

from sklearn.feature_extraction import text 

stop_words = text.ENGLISH_STOP_WORDS.union(my_additional_stop_words)

（其中my_additional_stop_words为任何字符串序列），并将结果用作stop_words参数。 CountVectorizer.__init__的输入由_check_stop_list解析，该方法将直接传递新的frozenset。