我有一个关于在scikit-learn中构建的LDA模型度量/计算主题连贯性的问题。
主题连贯性是衡量给定LDA主题模型的人类可解释性的有用指标。Gensim的CoherenceModel允许计算给定LDA模型的主题连贯性(包括几种变体)。
我有兴趣利用scikit-learn的LDA而不是gensim的LDA,因为它易于使用和文档化(注意:我想避免使用gensim到scikit-learn的包装器,即真正利用sklearn的LDA)。根据我的研究,似乎没有scikit-learn等效于Gensim的CoherenceModel。
是否有一种方法可以:
1 - 将scikit-learn的LDA模型输入gensim的CoherenceModel管道,要么通过手动将scikit-learn模型转换为gensim格式,要么通过一个scikit-learn到gensim wrapper(我已经看到了相反的包装器)来生成主题连贯性?
或者
2 - 从scikit-learn的LDA模型和CountVectorizer / Tfidf矩阵手动计算主题连贯性?
我在网上对这种用例的实现进行了相当多的研究,但没有看到任何解决方案。我唯一的线索是科学文献中记录的方程。
如果有人了解任何类似的实现,或者能够指导我创建手动方法来解决这个问题,那将是非常好的。谢谢!
*附注:我知道scikit-learn中有perplexity和log-likelihood可用于性能测量,但根据我所读的,它们并不具有预测性。