得票数最多 'gensim' 问题 - 第2页

关联标签

45得票8回答

如何检查Word2Vec训练模型中是否存在某个键

我使用Gensim训练了一个word2vec模型，使用的语料库是一些文档。一旦模型训练完成，我会编写以下代码来获取单词“view”的原始特征向量。myModel["view"] 然而，我对这个单词出现了KeyError错误，可能是因为它在word2vec索引的键列表中不存在。在尝试获取原始特征...

pythongensimword2vec

44得票1回答

获取最相似的文档（Doc2Vec）

我正在尝试构建一个文档检索模型，它可以按照与查询或搜索字符串相关性最高的顺序返回大多数文档。为此，我使用 gensim 中的 Doc2Vec 模型训练了一个 doc2vec 模型。我的数据集以每行一个字符串的形式存储在 pandas 数据集中。这是我目前的代码：import gensim, r...

pythonnlpgensimdoc2vec

43得票1回答

如何使用gensim从语料库中提取短语

为了对语料进行预处理，我计划从语料中提取常见短语，并尝试使用gensim中的Phrases模型。我尝试了下面的代码，但它没有给我想要的输出。我的代码：from gensim.models import Phrases documents = ["the mayor of new york ...

pythonnlpgensim

39得票6回答

更新gensim word2vec模型

我在gensim中拥有一个word2vec模型，训练了98892个文档。对于任何不在句子数组中的句子（即训练模型的集合），我需要用该句子更新模型，以便下一次查询时能够得出一些结果。我是这样做的：new_sentence = ['moscow', 'weather', 'cold'] model...

gensimword2vec

34得票3回答

Python Gensim：如何使用LDA模型计算文档相似度？

我有一个训练好的LDA模型，想要计算从我训练过的语料库中取出的两个文档之间的相似度分数。在学习了所有Gensim教程和函数之后，我仍然无法理解它。有人可以给我一些提示吗？谢谢！

pythonnlpldagensim

32得票3回答

主题分布：在使用Python进行LDA后，我们如何查看哪些文档属于哪个主题

我能够运行gensim中的LDA代码，并得到了前10个主题及其相应的关键词。现在，我想进一步了解LDA算法的准确性，看看它们将哪些文档聚类到每个主题中。 gensim LDA是否支持此功能？基本上，我想做类似于这样的事情，但使用Python和gensim： LDA with topi...

pythonnltkldagensim

31得票1回答

Word2vec向量的长度有什么意义？

我正在使用通过gensim连接的Google News预训练向量来使用Word2vec。我注意到，通过对Word2Vec对象进行直接索引查找获取的单词向量不是单位向量。>>> import numpy >>> from gensim.models impor...

pythonnlpgensimword2vec

31得票2回答

在训练之前对语料进行词向量化和词形还原处理的word2vec

Word2vec似乎主要是在原始语料库数据上进行训练。但是，对于许多语义相似性任务而言，词形归并是一种标准的预处理方法。我想知道是否有人在训练word2vec之前对语料库进行了词形归并处理，以及这是否是一个有用的预处理步骤。

nlpword2vecgensimlemmatization

31得票2回答

Python: gensim：运行时错误：在训练模型之前，您必须先构建词汇表。

我知道这个问题已经被提出了，但是我仍然没有能够找到解决方法。我想在自定义数据集上使用gensim的word2vec，但是现在我还在弄清楚数据集必须采用什么格式。我看了一下这篇文章，其中输入基本上是一个列表嵌套列表（一个包含来自NLTK布朗语料库的分词句子的其他列表的大列表）。所以我认为这是我必...

pythongensimword2vec

30得票2回答

Python pip："错误：legacy-install-failure"

我想通过 pip install gensim 安装 gensim Python包。但是出现了以下错误，我不知道该怎么解决它。 running build_ext building 'gensim.models.word2vec_inner' extension ...

pythonpipgensim