我有一个文本数据集,在其中我手动将每个记录分类为两种可能的类之一。我在语料库中创建了一个去除英文停用词的TFIDF,并训练/测试了一个随机森林分类器,评估了模型,并将模型应用于更大的文本语料库。 到目前为止一切顺利,但是如何了解我的模型更多信息?也就是说,如何找出哪些词对模型非常“重要”?
我有一个文本数据集,在其中我手动将每个记录分类为两种可能的类之一。我在语料库中创建了一个去除英文停用词的TFIDF,并训练/测试了一个随机森林分类器,评估了模型,并将模型应用于更大的文本语料库。 到目前为止一切顺利,但是如何了解我的模型更多信息?也就是说,如何找出哪些词对模型非常“重要”?
feature_importances_
的属性。我认为您需要在构造函数中使用oob_score=True
来训练模型。特征重要性将告诉您哪些特征(数据矩阵列)具有影响力。要获取单词,您需要返回到tfidf向量化器并获取其vocabulary_
属性(注意下划线),它是一个从单词到列索引的字典。