`randomForests`包中的`LocalImp`参数究竟是做什么用的?

5
请用简单易懂的英语解释一下在randomForest包中参数localImp的作用是什么? randomForest文档将此参数描述为:
"是否应该计算个案重要性度量?(将其设置为TRUE将覆盖重要性。)"
它还指出,它生成了一个p乘以n的矩阵,其中包含了每个样本的重要性度量值,即第i个变量对于第j个样本的重要性。如果localImp=FALSE,则返回NULL。
请问有人能够解释这到底意味着什么,或者给我指一篇详细讨论这个参数的论文吗?
谢谢。
2个回答

4

randomForest包更多地是一个Fortran代码的封装,由Leo Breiman和Adel Cutler编写。Breiman是加州大学伯克利分校的统计学教授,在他去世后,他们保存了他的网站。

这是一个很棒的资源:
https://www.stat.berkeley.edu/~breiman/RandomForests/

在这个网站上,他们在分类页面上提到了以下内容:

对于每个案例,考虑所有对其为oob的树。从变量m排列的oob数据中减去正确类别的投票百分比,再从未触及的oob数据中减去正确类别的投票百分比。这就是该案例变量m的局部重要性得分。

因此,对于观测i,取所有未在自助法中选择i进行训练的树。现在,考虑变量m。对于不包含i的每棵树的留存(oob)观测,重新排列变量m的值。计算这些树的袋外平均准确率。同时,计算这些树的未重新排列变量m的袋外准确率。用排列m准确率的平均值从未重新排列的oob准确率中减去,得到(i,m)的局部重要性度量。


2

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接