最新 'lda' 问题 - 第2页

关联标签

26得票2回答

LDA在短文本上的缺点是什么？

我试图理解为什么潜在狄利克雷分配(LDA)在Twitter等短文本环境中表现不佳。我已阅读论文“用于短文本的双词主题模型”，但仍不理解“单词共现的稀疏性”。从我的角度来看，LDA的生成部分对于任何类型的文本都是合理的，但造成短文本结果差的原因是抽样过程。我猜测LDA会基于(1)同一文档中其...

nlpldatopic-modeling

9得票1回答

我们能否使用自制语料库来训练LDA模型，使用gensim库？

我需要将LDA（隐含狄利克雷分布）应用于我收集的20,000个文档的数据库，以获取可能的主题。如何使用这些文档作为训练语料库，而不是使用其他可用的语料库，例如Brown Corpus或英文维基百科？您可以参考此页面。

pythonldagensim

10得票1回答

LDA主题模型性能-针对scikit-learn的主题相干实现

我有一个关于在scikit-learn中构建的LDA模型度量/计算主题连贯性的问题。主题连贯性是衡量给定LDA主题模型的人类可解释性的有用指标。Gensim的CoherenceModel允许计算给定LDA模型的主题连贯性（包括几种变体）。我有兴趣利用scikit-learn的LDA而不...

scikit-learnnlpgensimldatopic-modeling

14得票3回答

监督式潜在狄利克雷分配用于文档分类。

我有一堆已经被人手分类好的文档，分为一些组。是否有可修改版本的lda可以用来训练模型，并随后用它对未知文档进行分类？

machine-learningnlpclassificationdocument-classificationlda

11得票1回答

理解LDA/主题建模--主题重叠太多

我对主题建模/潜在狄利克雷分配还不太了解，不知道如何将其应用到我的数据集中（或者这是否是正确的方法）。我有一些文学作品（小说），希望使用LDA提取一些常见的主题。我正在使用Python中的gensim模块和一些nltk功能。为了测试，我将原始文本（仅6个）分成了30个每个1000个字的...

pythonnlpgensimldatopic-modeling

20得票3回答

R中的removeSparseTerms函数如何工作？

我正在使用R中的removeSparseTerms方法，该方法需要输入一个阈值值。我也了解到，值越高，返回矩阵中保留的术语数量就越多。这个方法是如何工作的？它背后的逻辑是什么？我理解稀疏性的概念，但这个阈值是否表示一个词条应该在多少个文档中出现，或者其他比率等等？

rtmlda

9得票1回答

使用Scikit-learn TfIdf和Gensim LDA

我曾在scikit learn中使用过各种版本的TFIDF来建模一些文本数据。 vectorizer = TfidfVectorizer(min_df=1,stop_words='english') 生成的数据X格式如下所示： <rowsxcolumns sparse matri...

pythonscikit-learntext-mininglda

12得票2回答

Gensim LDA主题分配

我希望使用LDA算法将每个文档分配给一个主题。但是，从LDA中获得的是主题分布。如下面的最后一行所示，我将其分配给最可能的主题。我的问题是：为了获取这些主题，我需要第二次运行lda[corpus]。是否有其他内置的gensim函数可以直接给出这些主题分配向量？尤其是由于LDA算法已经通过文...

gensimldatopic-modeling

8得票2回答

Python Scikit-learn，获取LDA每个主题的文档

我正在对一份文本数据进行LDA分析，使用了这个示例：这里。我的问题是：我如何知道哪些文档对应哪些主题？换句话说，例如主题1的文档在讨论什么？以下是我的步骤： n_features = 1000 n_topics = 8 n_top_words = 20 我逐行读取我的文本文件：...

pythonmachine-learningldatopic-modeling

8得票1回答

谷歌云Dataproc配置问题

我在运行一些Spark LDA主题建模时（主要是在看似随机的间隔中遇到了各种不同的分离错误），我认为这主要是由于我的执行器上分配的内存不足。这似乎与自动集群配置有关。我最新的尝试使用n1-standard-8机器（8个核心，30GB RAM）作为主节点和工作节点（6个工作者，总共48个核心）。...

apache-sparkgoogle-cloud-platformldagoogle-cloud-dataproc