45得票8回答
如何检查Word2Vec训练模型中是否存在某个键

我使用Gensim训练了一个word2vec模型,使用的语料库是一些文档。一旦模型训练完成,我会编写以下代码来获取单词“view”的原始特征向量。myModel["view"] 然而,我对这个单词出现了KeyError错误,可能是因为它在word2vec索引的键列表中不存在。在尝试获取原始特征...

44得票1回答
获取最相似的文档(Doc2Vec)

我正在尝试构建一个文档检索模型,它可以按照与查询或搜索字符串相关性最高的顺序返回大多数文档。为此,我使用 gensim 中的 Doc2Vec 模型训练了一个 doc2vec 模型。我的数据集以每行一个字符串的形式存储在 pandas 数据集中。这是我目前的代码:import gensim, r...

43得票1回答
如何使用gensim从语料库中提取短语

为了对语料进行预处理,我计划从语料中提取常见短语,并尝试使用gensim中的Phrases模型。我尝试了下面的代码,但它没有给我想要的输出。 我的代码:from gensim.models import Phrases documents = ["the mayor of new york ...

39得票6回答
更新gensim word2vec模型

我在gensim中拥有一个word2vec模型,训练了98892个文档。对于任何不在句子数组中的句子(即训练模型的集合),我需要用该句子更新模型,以便下一次查询时能够得出一些结果。我是这样做的:new_sentence = ['moscow', 'weather', 'cold'] model...

34得票3回答
Python Gensim:如何使用LDA模型计算文档相似度?

我有一个训练好的LDA模型,想要计算从我训练过的语料库中取出的两个文档之间的相似度分数。在学习了所有Gensim教程和函数之后,我仍然无法理解它。有人可以给我一些提示吗?谢谢!

32得票3回答
主题分布:在使用Python进行LDA后,我们如何查看哪些文档属于哪个主题

我能够运行gensim中的LDA代码,并得到了前10个主题及其相应的关键词。 现在,我想进一步了解LDA算法的准确性,看看它们将哪些文档聚类到每个主题中。 gensim LDA是否支持此功能? 基本上,我想做类似于这样的事情,但使用Python和gensim: LDA with topi...

31得票1回答
Word2vec向量的长度有什么意义?

我正在使用通过gensim连接的Google News预训练向量来使用Word2vec。我注意到,通过对Word2Vec对象进行直接索引查找获取的单词向量不是单位向量。>>> import numpy >>> from gensim.models impor...

31得票2回答
在训练之前对语料进行词向量化和词形还原处理的word2vec

Word2vec似乎主要是在原始语料库数据上进行训练。但是,对于许多语义相似性任务而言,词形归并是一种标准的预处理方法。我想知道是否有人在训练word2vec之前对语料库进行了词形归并处理,以及这是否是一个有用的预处理步骤。

31得票2回答
Python: gensim:运行时错误:在训练模型之前,您必须先构建词汇表。

我知道这个问题已经被提出了,但是我仍然没有能够找到解决方法。我想在自定义数据集上使用gensim的word2vec,但是现在我还在弄清楚数据集必须采用什么格式。我看了一下这篇文章,其中输入基本上是一个列表嵌套列表(一个包含来自NLTK布朗语料库的分词句子的其他列表的大列表)。所以我认为这是我必...

30得票2回答
Python pip:"错误:legacy-install-failure"

我想通过 pip install gensim 安装 gensim Python包。 但是出现了以下错误,我不知道该怎么解决它。 running build_ext building 'gensim.models.word2vec_inner' extension ...