我已经搜索了一段时间互联网,以理解rpart在变量重要性输出中分配给变量的数值“排名”统计信息。 我知道这个数字加起来为100,但这个数字究竟是什么,它叫什么名字,代表什么意义呢? 过去,我发现这对于将许多分类列与连续目标变量进行排序非常有用。
每个变量的重要性是单独计算的,其值是杂质减少的总和,无论该变量作为主要拆分还是作为替代品出现均计入。然后将其转换为百分制得分,最高值为100,依次比例递减至较低的值。 您可以在此处阅读有关变量重要性的更好描述: https://cran.r-project.org/web/packages/rpart/vignettes/longintro.pdf 以及Breiman的书(分类和回归树)。 希望这能帮到您!