26得票2回答
LDA在短文本上的缺点是什么?

我试图理解为什么潜在狄利克雷分配(LDA)在Twitter等短文本环境中表现不佳。我已阅读论文“用于短文本的双词主题模型”,但仍不理解“单词共现的稀疏性”。 从我的角度来看,LDA的生成部分对于任何类型的文本都是合理的,但造成短文本结果差的原因是抽样过程。我猜测LDA会基于(1)同一文档中其...

9得票1回答
我们能否使用自制语料库来训练LDA模型,使用gensim库?

我需要将LDA(隐含狄利克雷分布)应用于我收集的20,000个文档的数据库,以获取可能的主题。 如何使用这些文档作为训练语料库,而不是使用其他可用的语料库,例如Brown Corpus或英文维基百科? 您可以参考此页面。

10得票1回答
LDA主题模型性能-针对scikit-learn的主题相干实现

我有一个关于在scikit-learn中构建的LDA模型度量/计算主题连贯性的问题。 主题连贯性是衡量给定LDA主题模型的人类可解释性的有用指标。Gensim的CoherenceModel允许计算给定LDA模型的主题连贯性(包括几种变体)。 我有兴趣利用scikit-learn的LDA而不...

14得票3回答
监督式潜在狄利克雷分配用于文档分类。

我有一堆已经被人手分类好的文档,分为一些组。 是否有可修改版本的lda可以用来训练模型,并随后用它对未知文档进行分类?

11得票1回答
理解LDA/主题建模--主题重叠太多

我对主题建模/潜在狄利克雷分配还不太了解,不知道如何将其应用到我的数据集中(或者这是否是正确的方法)。 我有一些文学作品(小说),希望使用LDA提取一些常见的主题。 我正在使用Python中的gensim模块和一些nltk功能。为了测试,我将原始文本(仅6个)分成了30个每个1000个字的...

20得票3回答
R中的removeSparseTerms函数如何工作?

我正在使用R中的removeSparseTerms方法,该方法需要输入一个阈值值。我也了解到,值越高,返回矩阵中保留的术语数量就越多。 这个方法是如何工作的?它背后的逻辑是什么?我理解稀疏性的概念,但这个阈值是否表示一个词条应该在多少个文档中出现,或者其他比率等等?

9得票1回答
使用Scikit-learn TfIdf和Gensim LDA

我曾在scikit learn中使用过各种版本的TFIDF来建模一些文本数据。 vectorizer = TfidfVectorizer(min_df=1,stop_words='english') 生成的数据X格式如下所示: <rowsxcolumns sparse matri...

12得票2回答
Gensim LDA主题分配

我希望使用LDA算法将每个文档分配给一个主题。但是,从LDA中获得的是主题分布。如下面的最后一行所示,我将其分配给最可能的主题。 我的问题是:为了获取这些主题,我需要第二次运行lda[corpus]。是否有其他内置的gensim函数可以直接给出这些主题分配向量?尤其是由于LDA算法已经通过文...

8得票2回答
Python Scikit-learn,获取LDA每个主题的文档

我正在对一份文本数据进行LDA分析,使用了这个示例:这里。 我的问题是: 我如何知道哪些文档对应哪些主题? 换句话说,例如主题1的文档在讨论什么? 以下是我的步骤: n_features = 1000 n_topics = 8 n_top_words = 20 我逐行读取我的文本文件:...

8得票1回答
谷歌云Dataproc配置问题

我在运行一些Spark LDA主题建模时(主要是在看似随机的间隔中遇到了各种不同的分离错误),我认为这主要是由于我的执行器上分配的内存不足。这似乎与自动集群配置有关。我最新的尝试使用n1-standard-8机器(8个核心,30GB RAM)作为主节点和工作节点(6个工作者,总共48个核心)。...