29得票6回答
导入GoogleNews-vectors-negative300.bin文件

我正在使用gensim编写代码,但在调试代码时遇到了ValueError问题。最终我能够压缩GoogleNews-vectors-negative300.bin.gz文件,以便将其应用于我的模型中。我还尝试使用gzip,但结果不成功。代码中的错误出现在最后一行。我想知道如何修复这个错误。是否有...

29得票5回答
使用gensim理解LDA实现

我正在努力理解Python中使用gensim软件包实现潜在狄利克雷分配的过程。我正在按照以下步骤进行: 定义数据集documents = ["Apple is releasing a new product", "Amazon sells many things"...

28得票4回答
如何在自己的语料库上训练GloVe算法

我试着按照这个链接学习,但是却浪费了很多时间并最终没学到什么有用的内容。 我只是想在自己的语料库(~900Mb corpus.txt文件)上训练一个GloVe模型。 我下载了上述链接提供的文件,并使用cygwin进行编译(在编辑demo.sh文件并将其更改为VOCAB_FILE=corpus....

28得票4回答
如何加快Gensim Word2vec模型的加载时间?

我正在构建一个聊天机器人,所以我需要使用Word2Vec对用户的输入进行向量化。 我正在使用Google提供的一个预训练模型,其中包含300万个单词(GoogleNews-vectors-negative300)。 因此,我使用Gensim加载这个模型: import gensim mo...

26得票10回答
如何从gensim打印LDA主题模型?Python

使用gensim,我能够从一组LSA文档中提取主题,但我如何访问从LDA模型生成的主题? 当打印lda.print_topics(10)时,由于print_topics()返回了NoneType,该代码会出现以下错误: Traceback (most recent call last): ...

26得票4回答
生成器不是迭代器吗?

我有一个生成器(一种产生东西的函数),但是当尝试将其传递给gensim.Word2Vec时,我收到以下错误: TypeError:您无法将生成器作为句子参数传递。 尝试使用迭代器。 生成器不是一种迭代器吗? 如果不是,我该如何从中创建迭代器? 查看库代码,它似乎只是像for x in...

25得票2回答
Gensim:关键错误:"词汇表中无此单词"

我使用Python的Gensim库训练了一个Word2vec模型。我有一个如下的标记化列表。词汇量为34,但我只列出了其中几个:b = ['let', 'know', 'buy', 'someth', 'featur', 'mashabl', 'might', 'earn', ...

25得票8回答
没有pyLDAvis模块

我无法导入pyLDAvis。 它已经安装了,但由于某些原因,我无法导入它。 我尝试过:conda update anaconda pip install --upgrade pip pip install --upgrade jupyter notebook pip install py...

25得票3回答
加载预计算向量Gensim

我正在使用Gensim Python包学习神经语言模型。我知道您可以提供训练语料库以学习模型。但是,已经有很多以文本格式可用的预先计算的单词向量(例如http://www-nlp.stanford.edu/projects/glove/)。是否有一种方法可以初始化一个Gensim Word2V...

25得票3回答
使用word2vec时的停用词去除

我一直在使用gensim的word2vec库尝试word2vec技术。我的问题是,我是否需要从输入文本中删除停用词?因为基于我的初始实验结果,当我执行model.most_similar('someword')时,会出现像'of'、'when'这样的停用词。 但我没有看到任何指示必须使用wo...