9得票4回答
Gensim:如何将LDA模型生成的主题保存为可读格式(csv、txt等)?

代码的最后一部分: lda = LdaModel(corpus=corpus,id2word=dictionary, num_topics=2) print lda Bash 输出: INFO : adding document #0 to Dictionary(0 unique to...

26得票2回答
LDA在短文本上的缺点是什么?

我试图理解为什么潜在狄利克雷分配(LDA)在Twitter等短文本环境中表现不佳。我已阅读论文“用于短文本的双词主题模型”,但仍不理解“单词共现的稀疏性”。 从我的角度来看,LDA的生成部分对于任何类型的文本都是合理的,但造成短文本结果差的原因是抽样过程。我猜测LDA会基于(1)同一文档中其...

14得票3回答
主题建模的评估:如何理解一致性值/ c_v为0.4,这是好还是坏?

我需要知道0.4的相干性得分是好还是坏?我使用LDA算法进行主题建模。 在这种情况下,平均相干性得分是多少?

11得票5回答
使用Python可视化LDA模型

我有一份包含10万个文档中最常见的10个主题的LDA模型。现在只有相应概率分布的单词概述。 我想知道是否有适用于Python的工具来可视化这些主题?

32得票2回答
简单的Python实现协同主题建模?

我看到了这两篇论文,它们结合了协同过滤(矩阵分解)和主题建模(LDA),根据用户感兴趣的文章/帖子主题词推荐类似的文章/帖子。 这些论文(PDF格式)是: "Collaborative Topic Modeling for Recommending Scientific Articles" ...

7得票2回答
pyLDAvis在Google Colab中无法显示gensim生成的结果。

import pyLDAvis.gensim # Visualize the topics pyLDAvis.enable_notebook() vis = pyLDAvis.gensim.prepare(lda_model, corpus, id2word) vis 上述代码在Googl...

16得票3回答
从Pyspark LDA模型中提取文档-主题矩阵

我已经成功地通过Python API在Spark中训练了一个LDA模型:from pyspark.mllib.clustering import LDA model=LDA.train(corpus,k=10) 这段代码本身是完全正常工作的,但我现在需要LDA模型的文档-主题矩阵,但据我所知,...

29得票5回答
如何确定LDA主题数?

我是LDA的一名新生,希望可以在我的工作中使用它。然而,出现了一些问题。 为了获得最佳性能,我想要估算最佳主题数。在阅读了《Finding Scientific Topics》之后,我知道可以先计算logP(w|z),然后使用一系列P(w|z)的调和平均数来估算P(w|T)。 我的问题是,...

9得票4回答
pyLDAvis:尝试可视化主题时出现验证错误

我尝试使用gensim为30万条记录生成主题。在尝试可视化主题时,出现了验证错误。我可以在模型训练后打印主题,但在使用pyLDAvis时失败。 # Running and Training LDA model on the document term matrix. ldamodel1 = ...

11得票3回答
导入错误:找不到名为'sklearn.lda'的模块。

当我在openface演示目录中运行classifier.py时,使用以下命令:classifier.py train ./generated-embeddings/,我会得到以下错误信息: --> from sklearn.lda import LDA ModuleNotFou...