有没有一种方法可以以在线学习的方式训练LDA模型,即加载先前训练的模型,并使用新文档进行更新?
不幸的是,当前的mllib API不允许加载先前训练好的LDA模型,并将批处理添加到其中。这个Optimizer实现了在线变分贝叶斯LDA算法,它在每次迭代中处理语料库的一个子集,并且自适应地更新词-主题分布。
原始的在线LDA论文:Hoffman, Blei and Bach, "Online Learning for Latent Dirichlet Allocation." NIPS, 2010
initialModel
作为增量更新的起点(参见KMeans或GMM),但LDA目前不支持。我在JIRA上提交了一个问题:SPARK-20082。请点赞 ;-)