最新 'lda' 问题

标签列表

关联标签

14得票3回答

主题建模的评估：如何理解一致性值/ c_v为0.4，这是好还是坏？

我需要知道0.4的相干性得分是好还是坏？我使用LDA算法进行主题建模。在这种情况下，平均相干性得分是多少？

data-scienceldatopic-modeling

13得票2回答

pyLDAvis 可视化 pyspark 生成的 LDA 模型

有没有人有使用PySpark库（特别是使用pyLDAvis）训练的LDA模型数据可视化的示例？我看到了很多GenSim和其他库的示例，但没有PySpark的。具体来说，我想知道要传递什么到pyLDAvis.prepare()函数中以及如何从我的lda模型中获取它。这是我的代码： from py...

pythonapache-sparkpysparklda

11得票2回答

如何使用Gensim获取LDA模型的最佳主题数？

我正在尝试在Gensim中获取LDA模型的最佳主题数量。我发现的一种方法是计算每个模型的对数似然，并将其与其他模型进行比较，例如在使用潜在狄利克雷分配的输入参数上。因此，我研究了如何使用Gensim计算LDA模型的对数似然，并找到了以下帖子：如何估计潜在狄利克雷分配模型的α参数？它基...

pythontext-miningldagensimtopic-modeling

15得票1回答

Spark LDA消耗过多内存。

我想使用Spark MLlib LDA来总结我的文档语料库。我的问题设置如下: - 约有100,000个文档 - 约有400,000个唯一单词 - 100个聚类我有16台服务器(每个服务器有20个内核和128GB内存)。当我使用OnlineLDAOptimizer执行LDA时，它会...

apache-sparkapache-spark-mlliblda

9得票1回答

如何在gensim LDA中获取所有文档的document_topics分布？

我是Python的新手，需要构建一个LDA项目。在进行了一些预处理步骤后，这是我的代码： dictionary = Dictionary(docs) corpus = [dictionary.doc2bow(doc) for doc in docs] from gensim.models ...

python-3.xgensimldatopic-modelingprobability-distribution

7得票1回答

使用LDA（主题模型）:每个主题在单词上的分布相似且“平坦”。

潜在狄利克雷分配（LDA）是一种主题模型，用于查找一组文档中潜在变量（主题）。我正在使用Python gensim包，并遇到两个问题： 1. 我打印出每个主题的最常见单词（我尝试了10、20、50个主题），发现单词分布非常“平坦”：即使是最常见的单词也只有1%的概率... 2. 大多数主题...

pythonldatopic-modelinggensim

32得票2回答

简单的Python实现协同主题建模？

我看到了这两篇论文，它们结合了协同过滤（矩阵分解）和主题建模（LDA），根据用户感兴趣的文章/帖子主题词推荐类似的文章/帖子。这些论文（PDF格式）是： "Collaborative Topic Modeling for Recommending Scientific Articles" ...

pythonmachine-learningldatopic-modelingcollaborative-filtering

32得票3回答

主题分布：在使用Python进行LDA后，我们如何查看哪些文档属于哪个主题

我能够运行gensim中的LDA代码，并得到了前10个主题及其相应的关键词。现在，我想进一步了解LDA算法的准确性，看看它们将哪些文档聚类到每个主题中。 gensim LDA是否支持此功能？基本上，我想做类似于这样的事情，但使用Python和gensim： LDA with topi...

pythonnltkldagensim

9得票4回答

Gensim：如何将LDA模型生成的主题保存为可读格式（csv、txt等）？

代码的最后一部分： lda = LdaModel(corpus=corpus,id2word=dictionary, num_topics=2) print lda Bash 输出: INFO : adding document #0 to Dictionary(0 unique to...

pythonldagensim

16得票3回答

从Pyspark LDA模型中提取文档-主题矩阵

我已经成功地通过Python API在Spark中训练了一个LDA模型：from pyspark.mllib.clustering import LDA model=LDA.train(corpus,k=10) 这段代码本身是完全正常工作的，但我现在需要LDA模型的文档-主题矩阵，但据我所知，...

pythonapache-sparkpysparklda