针对一个特定的预测问题,我观察到在基于增益生成的XGBoost特征重要性中,某个变量排名很高,但在SHAP输出中排名较低。如何解释这一现象?也就是说,这个变量对于我们的预测问题是否非常重要?
杂质基础重要性(例如sklearn和xgboost内置程序)总结了树节点对特征的整体使用情况。这自然更加注重高基数特征(更多特征值可以产生更多可能的分裂),而增益可能会受到树结构的影响(节点顺序很重要,即使预测可能相同)。可能存在许多对预测没有影响的分裂或者反之(许多分裂会稀释平均重要性)-请参见https://towardsdatascience.com/interpretable-machine-learning-with-xgboost-9ec80d148d27和https://www.actuaries.digital/2019/06/18/analytics-snippet-feature-importance-and-the-shap-approach-to-machine-learning-models/中有各种不匹配的例子。
简单地说: