21得票4回答
在gensim Word2Vec模型中匹配单词和向量

我使用gensim的Word2Vec实现计算了一些词向量嵌入。据我所知,一切都进行得非常顺利;现在我正在对创建的单词向量进行聚类,希望能够获得一些语义分组。 接下来,我想查看每个聚类中包含的单词(而不是向量)。也就是说,如果我有嵌入向量[x, y, z],我想找出这个向量表示哪个实际的单词。...

21得票4回答
word2vec - 最佳方法是什么?添加、连接还是平均词向量?

我正在开发一个循环语言模型。为了学习可用于初始化语言模型的词向量,我使用gensim的word2vec模型。 训练完成后,word2vec模型为词汇表中的每个单词保存两个向量: 单词嵌入 (输入/隐藏矩阵的行) 和 上下文嵌入(隐藏/输出矩阵的列)。 正如这篇文章所述,至少有三种常见的方法来...

21得票3回答
从gensim解释Word2Vec负相似度

例如,我们使用gensim训练word2vec模型: from gensim import corpora, models, similarities from gensim.models.word2vec import Word2Vec documents = ["Human machi...

20得票6回答
使用scikit-learn向量化器和词汇表与gensim一起

我正在尝试将scikit-learn的向量化器对象与gensim主题模型一起回收利用。原因很简单:首先,我已经有了大量向量化数据;其次,我更喜欢scikit-learn向量化器的界面和灵活性;第三,在我看来,即使使用gensim进行主题建模非常快速,但计算其字典(Dictionary())相对...

20得票2回答
Python3中Gensim word2vec丢失词汇表

我正在使用gensim实现的Word2Vec。我有以下代码片段:print('training model') model = Word2Vec(Sentences(start, end)) print('trained model:', model) print('vocab:', mode...

19得票1回答
为什么在gensim word2vec中会创建多个模型文件?

当我尝试创建一个word2vec模型(跳字模型与负采样)时,我收到了以下3个文件作为输出。 word2vec (File) word2vec.syn1nef.npy (NPY file) word2vec.wv.syn0.npy (NPY file) 我只是担心为什么会出现这种情况,因为在我...

19得票3回答
在spacy中,如何使用自己在gensim中创建的word2vec模型?

我已在gensim中训练了自己的word2vec模型,并尝试在spacy中加载该模型。首先,我需要将其保存在我的磁盘上,然后尝试在spacy中加载一个init-model,但无法确定具体方法。 gensimmodel Out[252]: <gensim.models.word2vec....

19得票4回答
LDA模型在同一语料库上训练时每次都会生成不同的主题。

我正在使用Python的gensim来训练一个小语料库(231个句子)的潜在狄利克雷分配(LDA)模型。但是,每次重复该过程时,都会生成不同的主题。 为什么相同的LDA参数和语料库每次都会生成不同的主题? 如何稳定主题生成? 我正在使用这个语料库(http://pastebin.com/...

19得票5回答
在使用Python进行Word2Vec和gensim操作时,出现了“__init __()got an unexpected keyword argument 'document'”错误。

我正在使用Word2vec和gensim开展项目。model = gensim.models.Word2Vec( documents = 'userDataFile.txt', size=150, window=10, min_count=2, work...

18得票6回答
如何在gensim中完全从Word2Vec模型中删除一个单词?

给定一个模型,例如。from gensim.models.word2vec import Word2Vec documents = ["Human machine interface for lab abc computer applications", "A survey of user...