理解Gensim LDA模型中的参数

Question

14

我正在使用gensim.models.ldamodel.LdaModel进行LDA，但我不理解其中一些参数，文档中也找不到解释。如果有人有使用经验，我希望能够进一步了解这些参数的含义。

我正在处理一个由大约500篇文章组成的语料库，每篇文章大概有3-5页（由于保密原因，我无法分享数据样本）。目前我已经设置为：

但这仅仅是我在一个例子中看到的，并不确定是否适用于我的数据。

- Jane Sully

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- sophros · Accepted Answer

我想知道你是否看过这个页面?

无论如何，让我为您解释一些内容。该方法需要大量数据的支持（在Wikipedia规模的数据源上进行训练效果更佳），因此您使用的文档数量较少，因此结果可能相对粗糙，您需要意识到这一点。这就是为什么您不应该追求大量主题（您选择了10个主题，在您的情况下可以合理地增加到20个）。

至于其他参数：

random_state - 这作为一个种子（以便重复训练过程）
chunksize - 每次考虑的文档数量（影响内存消耗）
update_every - 在每update_every chunksize块中更新模型（本质上，这是为了优化内存消耗）
passes - 算法应传递整个语料库的次数
alpha - 引用文档：

可以设置为先前选择的明确数组=prior。它还支持“不对称”和“自动”这些特殊值：前者使用固定的归一化不对称1.0/topicno先验值，后者直接从您的数据中学习不对称先验值。
per_word_topics - 将其设置为True允许提取给定单词的最可能主题。训练过程已设置为每个单词都将分配给一个主题。否则，不具有指示性的单词将被省略。phi_value是另一个参数，可控制此过程 - 它是将单词视为具有指示性或非指示性的阈值。

关于训练过程或模型的内存优化，请参考这篇博客文章。