我正在使用pySpark ML LDA库对来自sklearn的20个新闻组数据集进行主题建模。我正在对训练语料库进行标准分词、停用词去除和tf-idf转换。最后,我可以获取主题并打印单词索引及其权重:
然而,如何将术语索引映射到实际单词以可视化主题呢? 我使用HashingTF应用于标记化的字符串列表来推导术语索引。如何生成一个字典(从索引到单词的映射)以便可视化主题?
topics = model.describeTopics()
topics.show()
+-----+--------------------+--------------------+
|topic| termIndices| termWeights|
+-----+--------------------+--------------------+
| 0|[5456, 6894, 7878...|[0.03716766297248...|
| 1|[5179, 3810, 1545...|[0.12236370744240...|
| 2|[5653, 4248, 3655...|[1.90742686393836...|
...
然而,如何将术语索引映射到实际单词以可视化主题呢? 我使用HashingTF应用于标记化的字符串列表来推导术语索引。如何生成一个字典(从索引到单词的映射)以便可视化主题?