使用gensim从外部tf-idf矩阵和词项列表训练LDA模型

3
我已经有了一个tf-idf矩阵,其中行代表术语,列代表文档。现在我想用给定的术语-文档矩阵训练LDA模型。第一步似乎是使用gensim.matutils.Dense2Corpus将矩阵转换为语料库格式。但如何构建id2word参数呢?我有术语列表(#terms==#rows),但不知道词典的格式,因此无法从gensim.corpora.Dictionary.load_from_text等函数中构建词典。有什么建议吗?谢谢。
1个回答

1

id2word 必须将每个 ID(整数)映射到术语(字符串)。

换句话说,它必须支持 id2word[123] == 'koala'

一个普通的 Python dict 是最简单的选择。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接