潜在狄利克雷分配(LDA)是一种主题模型,用于查找一组文档中潜在变量(主题)。我正在使用Python gensim包,并遇到两个问题:
1. 我打印出每个主题的最常见单词(我尝试了10、20、50个主题),发现单词分布非常“平坦”:即使是最常见的单词也只有1%的概率...
2. 大多数主题相似:即每个主题的最常见单词重叠很多,而且主题共享几乎相同的高频词集...
我猜问题可能是由于我的文档:我的文档实际上属于特定类别,例如,它们都是介绍不同在线游戏的文档。对于我的情况,LDA仍然有效吗?因为文档本身相当相似,所以基于“词袋”的模型可能不是一个好的尝试方法?
有人能给我一些建议吗?谢谢!
1. 我打印出每个主题的最常见单词(我尝试了10、20、50个主题),发现单词分布非常“平坦”:即使是最常见的单词也只有1%的概率...
2. 大多数主题相似:即每个主题的最常见单词重叠很多,而且主题共享几乎相同的高频词集...
我猜问题可能是由于我的文档:我的文档实际上属于特定类别,例如,它们都是介绍不同在线游戏的文档。对于我的情况,LDA仍然有效吗?因为文档本身相当相似,所以基于“词袋”的模型可能不是一个好的尝试方法?
有人能给我一些建议吗?谢谢!