我希望使用主题建模信息作为输入特征,通过svm分类器进行文本分类。因此,我想知道如何在数据集的训练和测试分区上执行LDA以生成主题建模特征,因为两个分区的语料库不同,这是否可行?
我是否做出了错误的假设?
您能否提供一个使用Scikit Learn的示例来说明如何操作?
我希望使用主题建模信息作为输入特征,通过svm分类器进行文本分类。因此,我想知道如何在数据集的训练和测试分区上执行LDA以生成主题建模特征,因为两个分区的语料库不同,这是否可行?
我是否做出了错误的假设?
您能否提供一个使用Scikit Learn的示例来说明如何操作?
from sklearn.decomposition import LatentDirichletAllocation as LDA
lda = LDA(n_topics=10,...)
lda.fit(training_data)
training_features = lda.transform(training_data)
testing_features = lda.transform(testing_data)
n_components
而不是n_topics
。 - Qasem Nick