使用LDA(主题模型):每个主题在单词上的分布相似且“平坦”。

7
潜在狄利克雷分配(LDA)是一种主题模型,用于查找一组文档中潜在变量(主题)。我正在使用Python gensim包,并遇到两个问题:
1. 我打印出每个主题的最常见单词(我尝试了10、20、50个主题),发现单词分布非常“平坦”:即使是最常见的单词也只有1%的概率...
2. 大多数主题相似:即每个主题的最常见单词重叠很多,而且主题共享几乎相同的高频词集...
我猜问题可能是由于我的文档:我的文档实际上属于特定类别,例如,它们都是介绍不同在线游戏的文档。对于我的情况,LDA仍然有效吗?因为文档本身相当相似,所以基于“词袋”的模型可能不是一个好的尝试方法?
有人能给我一些建议吗?谢谢!
1个回答

2
我发现当语料库较小且围绕特定主题时,NMF的表现更好。在一个包含约250个文档且都讨论同一问题的语料库中,NMF能够提取出7个独立的连贯主题。其他研究者也报告了这一点...
“NMF的另一个优点,特别适用于本文介绍的应用程序的情况,是它能够识别传统LDA方法中往往被忽视的利基主题。”(第6页)
Greene&Cross,《使用动态主题建模方法探索欧洲议会的政治议程》,PDF 不幸的是,Gensim没有NMF的实现,但是Scikit-Learn中有。为了有效地工作,您需要向NMF提供一些TFIDF加权的单词向量,而不是像LDA那样使用频率计数。
如果您习惯于使用Gensim,并以该方式预处理所有内容,则Genesis具有一些实用程序,可将语料库转换为Scikit兼容结构。但是,我认为只使用全部Scikit可能会更简单。这里有一个使用NMF的很好的例子here

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接