为文本分类解释随机森林模型

3

我有一个文本数据集,在其中我手动将每个记录分类为两种可能的类之一。我在语料库中创建了一个去除英文停用词的TFIDF,并训练/测试了一个随机森林分类器,评估了模型,并将模型应用于更大的文本语料库。 到目前为止一切顺利,但是如何了解我的模型更多信息?也就是说,如何找出哪些词对模型非常“重要”?

1个回答

5
训练后的RF应该具有一个名为feature_importances_的属性。我认为您需要在构造函数中使用oob_score=True来训练模型。特征重要性将告诉您哪些特征(数据矩阵列)具有影响力。要获取单词,您需要返回到tfidf向量化器并获取其vocabulary_属性(注意下划线),它是一个从单词到列索引的字典。
有关vocabulary_属性的解释,请参见此帖子:sklearn:TFIDF Transformer:如何获取文档中给定单词的tf-idf值

有道理。非常感激! - user1624577

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接