我正在尝试获取日语单词的tf-idf值。
我的问题在于,sklearn TfidfVectorizer会将某些我想保留作为停用词的日语字符删除。
以下是示例:
from sklearn.feature_extraction.text import TfidfVectorizer
tf = TfidfVectorizer(stop_words = None)
words_list = ["歯","が","痛い"]
tfidf_matrix = tf.fit_transform(words_list)
feature_names = tf.get_feature_names()
print (feature_names)
输出为:
['痛い']
然而,我想要保留列表中的所有三个字符。
我相信TfidfVectorizer会将长度为1的字符作为停用词去除。
我该如何关闭默认的停用词功能并保留所有字符?