如何使用预训练的词向量创建gensim word2vec模型?

3

我使用分布式word2vec算法创建了单词向量。现在我有单词及其对应的向量。如何使用这些单词和向量构建gensim word2vec模型?

1个回答

4

我不确定您是使用gensim还是其他工具创建了word2vec模型,但如果我正确理解您的问题,您只想使用gensim加载word2vec模型。这可以通过以下方式完成:

import gensim
w2v_file = codecs.open(WORD2VEC_PATH, encoding='utf-8')
model = gensim.models.KeyedVectors.load_word2vec_format(w2v_file, binary=True)  # or binary=False if the model is not compressed

然而,如果您想要从头开始训练word2vec模型(即从原始文本开始)并且仅使用gensim,这里有一个使用gensim训练word2vec模型的教程


谢谢,这正是我所寻找的。 - Uma Maheswara Rao Pinninti
请问您能否提供一个w2v_file的样本或者帮我生成这种格式?我的单词和它们的向量在同一行中,由空格分隔,而单词则由换行符分隔。谢谢。@sophros - Uma Maheswara Rao Pinninti
你尝试过以下的方法吗?from gensim.models import word2vec model = word2vec.Word2Vec.load_word2vec_format('path/to/GoogleNews-vectors-negative300.bin', binary=False)重要的部分是 binary=False - sophros
它确实帮了我,谢谢。我使用微软multiverso训练了我的语料库。现在我可以使用load_word2vec_format创建我的模型。 - Uma Maheswara Rao Pinninti

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接