也许这里说得有点啰嗦了。关于sklearn的随机森林,一个简单的问题:
在进行真/假分类问题时,在sklearn的随机森林中是否有一种指定用于训练每个树的样本量以及真/假观测比率的方法?
以下是更多详细信息:
在R语言实现的随机森林randomForest中,有一个选项叫做。这可以让你基于结果平衡用于训练每棵树的样本。
例如,如果您试图预测一个结果是真还是假,并且训练集中90%的结果都是假的,则可以设置。这意味着每棵树将在训练集中随机抽取(带替换)500个真和500个假的观测来进行训练。在这些情况下,我发现当使用50%的切割点时,模型在预测真实结果时表现更好,从而产生更高的kappa值。
在sklearn的实现中似乎没有这个选项。
- 是否有任何方法可以在sklearn中模拟此功能?
- 是否简单地基于Kappa统计量来优化切割点可以实现类似的结果,还是会有些问题?