看起来这个问题可能已经被问过几次了(这里 和这里),但尚未得到答案。我希望这是由于之前的问题存在歧义(如评论所示)。如果我重复提出类似的问题违反了规定,我很抱歉,我只是认为那些问题不会得到新的答案。
无论如何,我对潜在狄利克雷分配(Latent Dirichlet Allocation)还很陌生,正在探索将其用作文本数据的降维手段。最终,我希望从一个非常庞大的词汇库中提取出一组较小的主题,并使用这些主题作为模型中的几个变量构建分类模型。我已成功地在训练集上运行了LDA,但我的问题是如何预测这些相同主题中的哪些出现在其他测试数据集中。我现在正在使用R的topicmodels包,但如果有其他方法可以使用其他软件包进行操作,我也可以接受。
这是我尝试做的一个例子:
library(topicmodels)
data(AssociatedPress)
train <- AssociatedPress[1:100]
test <- AssociatedPress[101:150]
train.lda <- LDA(train,5)
topics(train.lda)
#how can I predict the most likely topic(s) from "train.lda" for each document in "test"?
topicmodels
包中的newdata
参数会发生什么?看起来很相关.. http://cran.r-project.org/web/packages/topicmodels/topicmodels.pdf - Ben