LightGBM支持分类变量。我想知道它是如何对它们进行编码的。它似乎不是一种独热编码,因为算法非常快(我尝试了需要很长时间才能进行独热编码的数据)。
LightGBM支持分类变量。我想知道它是如何对它们进行编码的。它似乎不是一种独热编码,因为算法非常快(我尝试了需要很长时间才能进行独热编码的数据)。
https://github.com/Microsoft/LightGBM/issues/699#issue-243313657
基本思路是根据直方图的累加值(sum_gradient / sum_hessian)对其进行排序,然后在排序后的直方图上找到最佳分割点,就像数值特征一样。