11得票3回答
导入错误:找不到名为'sklearn.lda'的模块。

当我在openface演示目录中运行classifier.py时,使用以下命令:classifier.py train ./generated-embeddings/,我会得到以下错误信息: --> from sklearn.lda import LDA ModuleNotFou...

13得票2回答
pyLDAvis 可视化 pyspark 生成的 LDA 模型

有没有人有使用PySpark库(特别是使用pyLDAvis)训练的LDA模型数据可视化的示例?我看到了很多GenSim和其他库的示例,但没有PySpark的。具体来说,我想知道要传递什么到pyLDAvis.prepare()函数中以及如何从我的lda模型中获取它。这是我的代码: from py...

26得票10回答
如何从gensim打印LDA主题模型?Python

使用gensim,我能够从一组LSA文档中提取主题,但我如何访问从LDA模型生成的主题? 当打印lda.print_topics(10)时,由于print_topics()返回了NoneType,该代码会出现以下错误: Traceback (most recent call last): ...

7得票2回答
scikit-learn的LDA函数中存在bug - 图表显示非零相关性

我使用scikit-learn的LDA函数进行了一些LDA,并注意到我的结果图中LD之间存在非零相关性。 from sklearn.lda import LDA sklearn_lda = LDA(n_components=2) transf_lda = sklearn_lda.fit_tr...

8得票2回答
Gensim LDA 相关性得分为Nan。

我按照以下教程创建了一个Gensim LDA模型:https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/ lda_model = gensim.models.LdaMulticore(data_df['bow...

15得票2回答
如何使用gensim LDA获取文档的完整主题分布?

当我这样训练我的lda模型时: dictionary = corpora.Dictionary(data) corpus = [dictionary.doc2bow(doc) for doc in data] num_cores = multiprocessing.cpu_count() n...

16得票3回答
从Pyspark LDA模型中提取文档-主题矩阵

我已经成功地通过Python API在Spark中训练了一个LDA模型:from pyspark.mllib.clustering import LDA model=LDA.train(corpus,k=10) 这段代码本身是完全正常工作的,但我现在需要LDA模型的文档-主题矩阵,但据我所知,...

19得票4回答
LDA模型在同一语料库上训练时每次都会生成不同的主题。

我正在使用Python的gensim来训练一个小语料库(231个句子)的潜在狄利克雷分配(LDA)模型。但是,每次重复该过程时,都会生成不同的主题。 为什么相同的LDA参数和语料库每次都会生成不同的主题? 如何稳定主题生成? 我正在使用这个语料库(http://pastebin.com/...

8得票3回答
如何在gensim中打印LDA主题中单词的完整分布?

以下代码中的 lda.show_topics 模块仅打印每个主题前10个单词的分布,如何打印出语料库中所有单词的完整分布? from gensim import corpora, models documents = ["Human machine interface for lab a...

26得票2回答
LDA在短文本上的缺点是什么?

我试图理解为什么潜在狄利克雷分配(LDA)在Twitter等短文本环境中表现不佳。我已阅读论文“用于短文本的双词主题模型”,但仍不理解“单词共现的稀疏性”。 从我的角度来看,LDA的生成部分对于任何类型的文本都是合理的,但造成短文本结果差的原因是抽样过程。我猜测LDA会基于(1)同一文档中其...