我有一个高度不平衡的数据集,想知道在哪里考虑权重,因此尝试理解
文档指出,
控制正负权重的平衡...& 典型值为要考虑的总体阴性病例数 / 总体阳性病例数
例如:
XGBClassifier
中 scale_pos_weight
参数和 fit
方法的 sample_weight
参数之间的区别。如果可以同时使用它们或如何选择任一方法,将感激不尽您提供直观的解释。文档指出,
scale_pos_weight
:控制正负权重的平衡...& 典型值为要考虑的总体阴性病例数 / 总体阳性病例数
例如:
from xgboost import XGBClassifier
import xgboost as xgb
LR=0.1
NumTrees=1000
xgbmodel=XGBClassifier(booster='gbtree',seed=0,nthread=-1,
gamma=0,scale_pos_weight=14,learning_rate=LR,n_estimators=NumTrees,
max_depth=5,objective='binary:logistic',subsample=1)
xgbmodel.fit(X_train, y_train)
OR
from xgboost import XGBClassifier
import xgboost as xgb
LR=0.1
NumTrees=1000
xgbmodel=XGBClassifier(booster='gbtree',seed=0,nthread=-1,
gamma=0,learning_rate=LR,n_estimators=NumTrees,
max_depth=5,objective='binary:logistic',subsample=1)
xgbmodel.fit(X_train, y_train,sample_weight=weights_train)
scale_pos_weight
中,正实例和负实例分别是什么意思?谢谢。 - Alain Michael Janith Schroter