我试图理解为什么潜在狄利克雷分配(LDA)在Twitter等短文本环境中表现不佳。我已阅读论文“用于短文本的双词主题模型”,但仍不理解“单词共现的稀疏性”。 从我的角度来看,LDA的生成部分对于任何类型的文本都是合理的,但造成短文本结果差的原因是抽样过程。我猜测LDA会基于(1)同一文档中其...
我需要将LDA(隐含狄利克雷分布)应用于我收集的20,000个文档的数据库,以获取可能的主题。 如何使用这些文档作为训练语料库,而不是使用其他可用的语料库,例如Brown Corpus或英文维基百科? 您可以参考此页面。
我有一个关于在scikit-learn中构建的LDA模型度量/计算主题连贯性的问题。 主题连贯性是衡量给定LDA主题模型的人类可解释性的有用指标。Gensim的CoherenceModel允许计算给定LDA模型的主题连贯性(包括几种变体)。 我有兴趣利用scikit-learn的LDA而不...
我有一堆已经被人手分类好的文档,分为一些组。 是否有可修改版本的lda可以用来训练模型,并随后用它对未知文档进行分类?
我对主题建模/潜在狄利克雷分配还不太了解,不知道如何将其应用到我的数据集中(或者这是否是正确的方法)。 我有一些文学作品(小说),希望使用LDA提取一些常见的主题。 我正在使用Python中的gensim模块和一些nltk功能。为了测试,我将原始文本(仅6个)分成了30个每个1000个字的...
我正在使用R中的removeSparseTerms方法,该方法需要输入一个阈值值。我也了解到,值越高,返回矩阵中保留的术语数量就越多。 这个方法是如何工作的?它背后的逻辑是什么?我理解稀疏性的概念,但这个阈值是否表示一个词条应该在多少个文档中出现,或者其他比率等等?
我曾在scikit learn中使用过各种版本的TFIDF来建模一些文本数据。 vectorizer = TfidfVectorizer(min_df=1,stop_words='english') 生成的数据X格式如下所示: <rowsxcolumns sparse matri...
我希望使用LDA算法将每个文档分配给一个主题。但是,从LDA中获得的是主题分布。如下面的最后一行所示,我将其分配给最可能的主题。 我的问题是:为了获取这些主题,我需要第二次运行lda[corpus]。是否有其他内置的gensim函数可以直接给出这些主题分配向量?尤其是由于LDA算法已经通过文...
我正在对一份文本数据进行LDA分析,使用了这个示例:这里。 我的问题是: 我如何知道哪些文档对应哪些主题? 换句话说,例如主题1的文档在讨论什么? 以下是我的步骤: n_features = 1000 n_topics = 8 n_top_words = 20 我逐行读取我的文本文件:...
我在运行一些Spark LDA主题建模时(主要是在看似随机的间隔中遇到了各种不同的分离错误),我认为这主要是由于我的执行器上分配的内存不足。这似乎与自动集群配置有关。我最新的尝试使用n1-standard-8机器(8个核心,30GB RAM)作为主节点和工作节点(6个工作者,总共48个核心)。...