我刚开始进行随机森林二元分类的超参数调整,想知道是否有人知道/能够建议如何设置评分以基于预测概率而不是预测分类。理想情况下,我希望有一种方法可以考虑下面的概率(即[0.2,0.6,0.7,0.1,0.0])来计算roc_auc,而不是分类(即[0,1,1,0,0])。
from sklearn.metrics import roc_auc_score
from sklearn.ensemble import RandomForestClassifier as rfc
from sklearn.grid_search import GridSearchCV
rfbase = rfc(n_jobs = 3, max_features = 'auto', n_estimators = 100, bootstrap=False)
param_grid = {
'n_estimators': [200,500],
'max_features': [.5,.7],
'bootstrap': [False, True],
'max_depth':[3,6]
}
rf_fit = GridSearchCV(estimator=rfbase, param_grid=param_grid
, scoring = 'roc_auc')
我认为当前的roc_auc是基于实际分类结果计算的。在着手创建自定义评分函数之前,希望先确认是否有更高效的方法。非常感谢您的帮助!
needs_proba
参数。你可以从这个例子中组合出一些东西。 - Jarad