Scikit-learn的CountVectorizer类允许您将字符串'english'传递给stop_words参数。 我想将一些内容添加到这个预定义列表中。 有人可以告诉我如何做到这一点吗?
Scikit-learn的CountVectorizer类允许在stop_words参数中传递字符串“english”。如果想要添加其他内容到该预定义列表中,可以如何实现呢?Scikit-learn的CountVectorizer类允许您将字符串'english'传递给stop_words参数。 我想将一些内容添加到这个预定义列表中。 有人可以告诉我如何做到这一点吗?
Scikit-learn的CountVectorizer类允许在stop_words参数中传递字符串“english”。如果想要添加其他内容到该预定义列表中,可以如何实现呢?sklearn.feature_extraction.text
的源代码,完整的列表(实际上是一个frozenset
,来自于stop_words
)ENGLISH_STOP_WORDS
通过__all__
暴露出来。因此,如果您想使用该列表以及更多项目,可以执行以下操作:from sklearn.feature_extraction import text
stop_words = text.ENGLISH_STOP_WORDS.union(my_additional_stop_words)
(其中my_additional_stop_words
为任何字符串序列),并将结果用作stop_words
参数。 CountVectorizer.__init__
的输入由_check_stop_list
解析,该方法将直接传递新的frozenset
。
'english'
stop_words
加上一些你自己的额外内容吗? - jonrsharpe