44得票2回答
LDA主题建模-训练和测试

我已经阅读了LDA,理解了输入一组文档后主题如何生成的数学方法。 参考资料显示,LDA是一种算法,仅通过一组文档(无需监督)就能发现该组文档中表达的“主题”。因此,通过使用LDA算法和Gibbs采样器(或变分贝叶斯),我可以将一组文档作为输入,并获得主题作为输出。每个主题是一组带有指定概率的...

44得票6回答
在R的topicmodels中如何从DocumentTermMatrix中删除空文档?

我正在使用R中的topicmodels包进行主题建模。我正在创建一个语料库对象,进行一些基本预处理,然后创建一个文档术语矩阵: corpus <- Corpus(VectorSource(vec), readerControl=list(language="en")) corpus ...

34得票3回答
Python Gensim:如何使用LDA模型计算文档相似度?

我有一个训练好的LDA模型,想要计算从我训练过的语料库中取出的两个文档之间的相似度分数。在学习了所有Gensim教程和函数之后,我仍然无法理解它。有人可以给我一些提示吗?谢谢!

32得票2回答
简单的Python实现协同主题建模?

我看到了这两篇论文,它们结合了协同过滤(矩阵分解)和主题建模(LDA),根据用户感兴趣的文章/帖子主题词推荐类似的文章/帖子。 这些论文(PDF格式)是: "Collaborative Topic Modeling for Recommending Scientific Articles" ...

32得票3回答
主题分布:在使用Python进行LDA后,我们如何查看哪些文档属于哪个主题

我能够运行gensim中的LDA代码,并得到了前10个主题及其相应的关键词。 现在,我想进一步了解LDA算法的准确性,看看它们将哪些文档聚类到每个主题中。 gensim LDA是否支持此功能? 基本上,我想做类似于这样的事情,但使用Python和gensim: LDA with topi...

29得票5回答
使用gensim理解LDA实现

我正在努力理解Python中使用gensim软件包实现潜在狄利克雷分配的过程。我正在按照以下步骤进行: 定义数据集documents = ["Apple is releasing a new product", "Amazon sells many things"...

29得票5回答
如何确定LDA主题数?

我是LDA的一名新生,希望可以在我的工作中使用它。然而,出现了一些问题。 为了获得最佳性能,我想要估算最佳主题数。在阅读了《Finding Scientific Topics》之后,我知道可以先计算logP(w|z),然后使用一系列P(w|z)的调和平均数来估算P(w|T)。 我的问题是,...

26得票2回答
LDA在短文本上的缺点是什么?

我试图理解为什么潜在狄利克雷分配(LDA)在Twitter等短文本环境中表现不佳。我已阅读论文“用于短文本的双词主题模型”,但仍不理解“单词共现的稀疏性”。 从我的角度来看,LDA的生成部分对于任何类型的文本都是合理的,但造成短文本结果差的原因是抽样过程。我猜测LDA会基于(1)同一文档中其...

26得票10回答
如何从gensim打印LDA主题模型?Python

使用gensim,我能够从一组LSA文档中提取主题,但我如何访问从LDA模型生成的主题? 当打印lda.print_topics(10)时,由于print_topics()返回了NoneType,该代码会出现以下错误: Traceback (most recent call last): ...

24得票1回答
将pyLDAvis图表导出为独立的网页

我正在使用Gensim和pyLDAvis进行主题模型分析文本。希望能够与远程同事分享结果,而无需安装Python和所有必需的库。是否有一种将交互式图表导出为HTML/JS文件的方法,以便上传到任何Web服务器? 我在文档中找到了相关提及,但不知道如何实现: https://github.com...