我一直在使用 R 语言中的 ranger 和 randomForest 函数。我特别关注的是获取每个类别预测时特征(预测变量)的重要性,而不是所有类别的总体重要性。我知道如何使用 randomForest 中的 importance() 函数来实现这一点,因为它似乎是默认行为:
library(randomForest)
set.seed(100)
rfmodel <- randomForest(Species ~ ., data = iris, ntree = 1000, importance = TRUE)
importance(rfmodel)
这将生成一个矩阵,其中包含每个特征对于三个类别的重要性。
另外,对于ranger,我正在运行:
library(ranger)
rangermodel<-ranger(Species ~ ., data = iris, num.trees = 1000, write.forest=TRUE, importance="permutation", local.importance=TRUE)
importance(rangermodel)
rangermodel$variable.importance
rangermodel$variable.importance.local
rangermodel$variable.importance提供了整个分类问题中特征的重要性,但不按类别提供。而rangermodel$variable.importance.local提供了每个案例的重要性,但同样不按类别提供。
ranger文档似乎没有提供有关此信息的信息。我在这个主题上唯一找到的问题是这个:如何在使用随机森林时分离总体变量重要性值? 但他们没有得出使用ranger实现这一点的结论。 将ranger代码更改如下也未能提供我要寻找的输出:
rangermodel<-ranger(Species ~ ., data = iris, num.trees = 1000, write.forest=TRUE, importance="impurity")