我现在正在使用LDA(潜在狄利克雷分配)主题建模方法来帮助从一组文档中提取主题。根据下面链接中所理解的,这是一种无监督学习方法,用于将每个文档与提取的主题分类/标记。
我的问题是,是否有任何组件或矩阵可以从建立的LDA模型中获取文档-主题关联?例如,我需要找到与每个文档相关的前2个主题作为该文档的文档标签/分类。是否有任何组件可以查找文档中主题的分布,类似于用于查找主题内单词分布的model.components_?
在该链接中给出的示例代码中,定义了一个函数来获取与每个识别出的主题相关联的前几个单词。
sklearn.__version__
Out[41]: '0.17'
from sklearn.decomposition import LatentDirichletAllocation
def print_top_words(model, feature_names, n_top_words):
for topic_idx, topic in enumerate(model.components_):
print("Topic #%d:" % topic_idx)
print(" ".join([feature_names[i]
for i in topic.argsort()[:-n_top_words - 1:-1]]))
print()
print("\nTopics in LDA model:")
tf_feature_names = tf_vectorizer.get_feature_names()
print_top_words(lda, tf_feature_names, n_top_words)
我的问题是,是否有任何组件或矩阵可以从建立的LDA模型中获取文档-主题关联?例如,我需要找到与每个文档相关的前2个主题作为该文档的文档标签/分类。是否有任何组件可以查找文档中主题的分布,类似于用于查找主题内单词分布的model.components_?