我是scikit-learn的新手,目前正在学习朴素贝叶斯(Multinomial)。现在,我正在使用sklearn.feature_extraction.text从文本中进行向量化,但出现了一个问题:当我对一些文本进行向量化时,输出数组中没有单词“我”的出现。
代码:
x_train = ['I am a Nigerian hacker', 'I like puppies']
# convert x_train to vectorized text
vectorizer_train = CountVectorizer(min_df=0)
vectorizer_train.fit(x_train)
x_train_array = vectorizer_train.transform(x_train).toarray()
# print vectorized text, feature names
print x_train_array
print vectorizer_train.get_feature_names()
输出:
1 1 0 1 0
0 0 1 0 1
[u'am', u'hacker', u'like', u'nigerian', u'puppies']
为什么“我”似乎不会出现在功能名称中?当我将其更改为“Ia”或其他类似名称时,它确实会出现。