Rpart - 变量重要性向量 - 如何实现?

4

我已经搜索了一段时间互联网,以理解rpart在变量重要性输出中分配给变量的数值“排名”统计信息。

我知道这个数字加起来为100,但这个数字究竟是什么,它叫什么名字,代表什么意义呢?

过去,我发现这对于将许多分类列与连续目标变量进行排序非常有用。

1个回答

2
每个变量的重要性是单独计算的,其值是杂质减少的总和,无论该变量作为主要拆分还是作为替代品出现均计入。然后将其转换为百分制得分,最高值为100,依次比例递减至较低的值。 您可以在此处阅读有关变量重要性的更好描述: https://cran.r-project.org/web/packages/rpart/vignettes/longintro.pdf 以及Breiman的书(分类和回归树)。 希望这能帮到您!

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接