使用LDA（主题模型）:每个主题在单词上的分布相似且“平坦”。

Question

7

潜在狄利克雷分配（LDA）是一种主题模型，用于查找一组文档中潜在变量（主题）。我正在使用Python gensim包，并遇到两个问题：

1. 我打印出每个主题的最常见单词（我尝试了10、20、50个主题），发现单词分布非常“平坦”：即使是最常见的单词也只有1%的概率...

2. 大多数主题相似：即每个主题的最常见单词重叠很多，而且主题共享几乎相同的高频词集...

我猜问题可能是由于我的文档：我的文档实际上属于特定类别，例如，它们都是介绍不同在线游戏的文档。对于我的情况，LDA仍然有效吗？因为文档本身相当相似，所以基于“词袋”的模型可能不是一个好的尝试方法？

有人能给我一些建议吗？谢谢！

- Ruby

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- James Allen-Robertson · Accepted Answer

我发现当语料库较小且围绕特定主题时，NMF的表现更好。在一个包含约250个文档且都讨论同一问题的语料库中，NMF能够提取出7个独立的连贯主题。其他研究者也报告了这一点...

“NMF的另一个优点，特别适用于本文介绍的应用程序的情况，是它能够识别传统LDA方法中往往被忽视的利基主题。”（第6页）

Greene＆Cross，《使用动态主题建模方法探索欧洲议会的政治议程》，PDF 不幸的是，Gensim没有NMF的实现，但是Scikit-Learn中有。为了有效地工作，您需要向NMF提供一些TFIDF加权的单词向量，而不是像LDA那样使用频率计数。

如果您习惯于使用Gensim，并以该方式预处理所有内容，则Genesis具有一些实用程序，可将语料库转换为Scikit兼容结构。但是，我认为只使用全部Scikit可能会更简单。这里有一个使用NMF的很好的例子here。