LDA会为每个文档计算一个主题概率列表,因此您可能希望将文档的主题解释为该文档最高概率的主题。
如果dtm
是您的文档-词矩阵,lda
是您的潜在狄利克雷分配对象,您可以使用transform()
函数和pandas
来探索主题混合:
docsVStopics = lda.transform(dtm)
docsVStopics = pd.DataFrame(docsVStopics, columns=["Topic"+str(i+1) for i in range(N_TOPICS)])
print("Created a (%dx%d) document-topic matrix." % (docsVStopics.shape[0], docsVStopics.shape[1]))
docsVStopics.head()
most_likely_topics = docsVStopics.idxmax(axis=1)
most_likely_topics.groupby(most_likely_topics).count()