我目前正在使用xgboost开发回归模型。由于xgboost有多个超参数,我已经使用GridSearchCV()
添加了交叉验证逻辑。作为一次尝试,我设置了max_depth:[2,3]
。我的Python代码如下。
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import make_scorer
from sklearn.metrics import mean_squared_error
xgb_reg = xgb.XGBRegressor()
# Obtain the best hyper parameter
scorer=make_scorer(mean_squared_error, False)
params = {'max_depth': [2,3],
'eta': [0.1],
'colsample_bytree': [1.0],
'colsample_bylevel': [0.3],
'subsample': [0.9],
'gamma': [0],
'lambda': [1],
'alpha':[0],
'min_child_weight':[1]
}
grid_xgb_reg=GridSearchCV(xgb_reg,
param_grid=params,
scoring=scorer,
cv=5,
n_jobs=-1)
grid_xgb_reg.fit(X_train, y_train)
y_pred = grid_xgb_reg.predict(X_test)
y_train_pred = grid_xgb_reg.predict(X_train)
## Evaluate model
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score
print('RMSE train: %.3f, test: %.3f' %(np.sqrt(mean_squared_error(y_train, y_train_pred)),np.sqrt(mean_squared_error(y_test, y_pred))))
print('R^2 train: %.3f, test: %.3f' %(r2_score(y_train, y_train_pred),r2_score(y_test, y_pred)))
问题在于
GridSearchCV
似乎无法选择最佳的超参数。在我的情况下,当我将max_depth
设置为[2,3]
时,结果如下所示。在以下情况中,GridSearchCV
选择了max_depth:2
作为最佳超参数。# The result when max_depth is 2
RMSE train: 11.861, test: 15.113
R^2 train: 0.817, test: 0.601
然而,如果我更新max_depth
为[3]
(通过删除2
),则测试分数如下更好。
# The result when max_depth is 3
RMSE train: 9.951, test: 14.752
R^2 train: 0.871, test: 0.620
问题
我的理解是,即使我将 max_depth
设置为 [2,3]
,GridSearchCV
方法仍应该选择 max_depth:3
作为最佳超参数,因为相对于 max_depth:2
,max_depth:3
可以返回更好的RSME或R^2得分。有人可以告诉我为什么当我将max_depth
设置为[2,3]
时,我的代码无法选择最佳的超参数吗?