我熟悉使用BOW特征进行文本分类,首先找到语料库的词汇量,并将其作为我们的特征向量大小。然后对于每个句子/文档,以及其中所有单词,我们根据该单词在该句子/文档中的出现情况,分别标记0/1。
但是,现在我正在尝试使用每个单词的向量表示,是否必须创建全局词汇表?
我熟悉使用BOW特征进行文本分类,首先找到语料库的词汇量,并将其作为我们的特征向量大小。然后对于每个句子/文档,以及其中所有单词,我们根据该单词在该句子/文档中的出现情况,分别标记0/1。
但是,现在我正在尝试使用每个单词的向量表示,是否必须创建全局词汇表?
def getWordVecs(words, w2v_dict):
vecs = []
for word in words:
word = word.replace('\n', '')
try:
vecs.append(w2v_model[word].reshape((1,300)))
except KeyError:
continue
vecs = np.concatenate(vecs)
vecs = np.array(vecs, dtype='float')
final_vec = np.sum(vecs, axis=0)
return final_vec
words是在对句子进行分词后获得的标记列表。