为文本分类解释随机森林模型

Question

为文本分类解释随机森林模型

3

我有一个文本数据集，在其中我手动将每个记录分类为两种可能的类之一。我在语料库中创建了一个去除英文停用词的TFIDF，并训练/测试了一个随机森林分类器，评估了模型，并将模型应用于更大的文本语料库。到目前为止一切顺利，但是如何了解我的模型更多信息？也就是说，如何找出哪些词对模型非常“重要”？

- user1624577

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Dthal · Accepted Answer

训练后的RF应该具有一个名为feature_importances_的属性。我认为您需要在构造函数中使用oob_score=True来训练模型。特征重要性将告诉您哪些特征（数据矩阵列）具有影响力。要获取单词，您需要返回到tfidf向量化器并获取其vocabulary_属性（注意下划线），它是一个从单词到列索引的字典。

有关vocabulary_属性的解释，请参见此帖子：sklearn：TFIDF Transformer：如何获取文档中给定单词的tf-idf值。