随机森林 - 概率估计(+scikit-learn具体实现)

7

我对随机森林如何计算概率估计很感兴趣,无论是在一般情况下还是在Python的scikit-learn库中(其中通过predict_proba函数返回概率估计)。

谢谢, Guy


我认为你需要更具体一些,特别是,你的问题是什么? - DuckMaestro
2个回答

13

随机森林返回的概率是集成树中每个树返回的概率的平均值(文档)。 单个树返回的概率是样本所在叶子节点的归一化类别直方图。


你知道在文档中哪里可以找到更多关于单棵树如何估计概率的信息吗? - dukebody
我目前没有看到它,我们会添加它。你可以在文献中找到它。它只是同一叶子样本中属于某个类别的样本比例(如我在上面的回答中所说)。 - Andreas Mueller
谢谢Andreas!关于概率估计的方式...对于http://stackoverflow.com/questions/28002991/how-to-use-whole-training-example-to-estimate-class-probabilities-in-sklearn-ran,您有什么想法吗? - dukebody

2
除了Andreas/Dougal提到的内容之外,训练随机森林时,请将compute_importances=True打开。然后检查classifier.feature_importances_以查看在RF树中出现较高的特征。

1
仅供参考:compute_importances已在scikit-learn 0.14+中删除,此后特征重要性是通过执行feature_importances_计算的(请参阅https://github.com/scikit-learn/scikit-learn/commit/f7f54244643f68c8ff2640ca0c6c7f0822463a96)。 - oliverguenther
感谢 @oliverguenther - smci

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接