14得票3回答
主题建模的评估:如何理解一致性值/ c_v为0.4,这是好还是坏?

我需要知道0.4的相干性得分是好还是坏?我使用LDA算法进行主题建模。 在这种情况下,平均相干性得分是多少?

13得票2回答
pyLDAvis 可视化 pyspark 生成的 LDA 模型

有没有人有使用PySpark库(特别是使用pyLDAvis)训练的LDA模型数据可视化的示例?我看到了很多GenSim和其他库的示例,但没有PySpark的。具体来说,我想知道要传递什么到pyLDAvis.prepare()函数中以及如何从我的lda模型中获取它。这是我的代码: from py...

11得票2回答
如何使用Gensim获取LDA模型的最佳主题数?

我正在尝试在Gensim中获取LDA模型的最佳主题数量。 我发现的一种方法是计算每个模型的对数似然,并将其与其他模型进行比较,例如在使用潜在狄利克雷分配的输入参数上。 因此,我研究了如何使用Gensim计算LDA模型的对数似然,并找到了以下帖子:如何估计潜在狄利克雷分配模型的α参数? 它基...

15得票1回答
Spark LDA消耗过多内存。

我想使用Spark MLlib LDA来总结我的文档语料库。 我的问题设置如下: - 约有100,000个文档 - 约有400,000个唯一单词 - 100个聚类 我有16台服务器(每个服务器有20个内核和128GB内存)。 当我使用OnlineLDAOptimizer执行LDA时,它会...

9得票1回答
如何在gensim LDA中获取所有文档的document_topics分布?

我是Python的新手,需要构建一个LDA项目。在进行了一些预处理步骤后,这是我的代码: dictionary = Dictionary(docs) corpus = [dictionary.doc2bow(doc) for doc in docs] from gensim.models ...

7得票1回答
使用LDA(主题模型):每个主题在单词上的分布相似且“平坦”。

潜在狄利克雷分配(LDA)是一种主题模型,用于查找一组文档中潜在变量(主题)。我正在使用Python gensim包,并遇到两个问题: 1. 我打印出每个主题的最常见单词(我尝试了10、20、50个主题),发现单词分布非常“平坦”:即使是最常见的单词也只有1%的概率... 2. 大多数主题...

32得票2回答
简单的Python实现协同主题建模?

我看到了这两篇论文,它们结合了协同过滤(矩阵分解)和主题建模(LDA),根据用户感兴趣的文章/帖子主题词推荐类似的文章/帖子。 这些论文(PDF格式)是: "Collaborative Topic Modeling for Recommending Scientific Articles" ...

32得票3回答
主题分布:在使用Python进行LDA后,我们如何查看哪些文档属于哪个主题

我能够运行gensim中的LDA代码,并得到了前10个主题及其相应的关键词。 现在,我想进一步了解LDA算法的准确性,看看它们将哪些文档聚类到每个主题中。 gensim LDA是否支持此功能? 基本上,我想做类似于这样的事情,但使用Python和gensim: LDA with topi...

9得票4回答
Gensim:如何将LDA模型生成的主题保存为可读格式(csv、txt等)?

代码的最后一部分: lda = LdaModel(corpus=corpus,id2word=dictionary, num_topics=2) print lda Bash 输出: INFO : adding document #0 to Dictionary(0 unique to...

16得票3回答
从Pyspark LDA模型中提取文档-主题矩阵

我已经成功地通过Python API在Spark中训练了一个LDA模型:from pyspark.mllib.clustering import LDA model=LDA.train(corpus,k=10) 这段代码本身是完全正常工作的,但我现在需要LDA模型的文档-主题矩阵,但据我所知,...