24得票1回答
将pyLDAvis图表导出为独立的网页

我正在使用Gensim和pyLDAvis进行主题模型分析文本。希望能够与远程同事分享结果,而无需安装Python和所有必需的库。是否有一种将交互式图表导出为HTML/JS文件的方法,以便上传到任何Web服务器? 我在文档中找到了相关提及,但不知道如何实现: https://github.com...

24得票1回答
Gensim:word2vec和doc2vec有什么区别?

我是新手,也不是英语母语者,因此在理解 Gensim 的 word2vec 和 doc2vec 时有些困难。 我认为两者都可以给我一些与我请求的查询词最相似的单词,通过most_similar()(训练后)。 如何确定我需要使用 word2vec 还是 doc2vec? 请有人简要解释一...

24得票2回答
给定一个词向量(而不是单词本身),获取最相似的单词。

使用 gensim.models.Word2Vec 库,您可以提供一个模型和一个“单词”,以便查找最相似的单词列表:model = gensim.models.Word2Vec.load_word2vec_format(model_file, binary=True) model.most_s...

24得票2回答
Word2Vec:使用不同窗口大小的影响

我正在尝试在非常短的短语(5个单词组成)上训练word2vec模型。由于每个句子或示例都非常短,我认为我可以使用的窗口大小最多为2。我正在尝试了解这样一个小的窗口大小对所学习模型的质量有什么影响,以便我能够理解我的模型是否学到了有意义的东西。我尝试在5个单词组成的短语上训练word2vec模型...

24得票5回答
跨文档词项TF-IDF得分之和的解释

首先,让我们提取每个文档中每个词语的TF-IDF得分: from gensim import corpora, models, similarities documents = ["Human machine interface for lab abc computer applicatio...

24得票3回答
从Gensim 3.8.0升级到Gensim 4.0.0

我已经使用Gensim 3.8.0训练了一个Word2Vec模型。后来,我尝试在GCP上使用Gensim 4.0.o预训练的模型。我使用了以下代码:model = KeyedVectors.load_word2vec_format(wv_path, binary= False) words =...

23得票1回答
Gensim库支持GPU加速吗?

使用Gensim提供的Word2vec和Doc2vec方法,有一个分布式版本可以使用BLAS、ATLAS等加速(详情在这里)。但问题是它是否支持GPU模式?如果使用Gensim,是否有可能使用GPU?

22得票2回答
word2vec中的词向量代表什么?

Word2vec是谷歌开源的工具: 对于每个单词,它提供了一组浮点数向量,它们到底代表什么? 还有一篇关于段落向量的论文,有人能解释一下如何使用word2vec来获得固定长度向量的段落吗?

22得票4回答
如何在Python中使用gensim BM25排名算法

我发现gensim有BM25排名函数,但是我找不到如何使用它的教程。在我的情况下,我有一个查询和从搜索引擎检索到的几篇文档。如何使用gensim BM25排名来比较查询和文档以找到最相似的那个?我是gensim的新手。谢谢。查询:"experimental studies of creep b...

22得票2回答
使用t-sne可视化gensim生成的word2vec模型

我使用gensim在我的语料库上训练了doc2vec和对应的word2vec,并希望使用t-sne将单词可视化。也就是说,图中的每个点都有一个“单词”。 我看到这里有一个类似的问题:t-sne on word2vec 根据这个问题,我有以下代码: import gensim import...