解释XGB特征重要性和SHAP值的含义

Question

4

针对一个特定的预测问题，我观察到在基于增益生成的XGBoost特征重要性中，某个变量排名很高，但在SHAP输出中排名较低。如何解释这一现象？也就是说，这个变量对于我们的预测问题是否非常重要？

- learner101

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- dx2-66 · Accepted Answer

杂质基础重要性（例如sklearn和xgboost内置程序）总结了树节点对特征的整体使用情况。这自然更加注重高基数特征（更多特征值可以产生更多可能的分裂），而增益可能会受到树结构的影响（节点顺序很重要，即使预测可能相同）。可能存在许多对预测没有影响的分裂或者反之（许多分裂会稀释平均重要性）-请参见https://towardsdatascience.com/interpretable-machine-learning-with-xgboost-9ec80d148d27和https://www.actuaries.digital/2019/06/18/analytics-snippet-feature-importance-and-the-shap-approach-to-machine-learning-models/中有各种不匹配的例子。

简单地说：