我正在尝试使用Python中的LightGBM训练GBDT分类器,但在官方网站提供的示例中感到困惑。
按照列出的步骤,我发现验证数据来源不明确,并且关于valid_data的格式、是否使用它来训练模型以及其价值或可用性没有任何线索。
另一个问题是,在文档中说:“验证数据应与训练数据对齐”,但我查看了数据集详细信息后发现有另一种说法:“如果这是验证集的数据集,则应使用训练数据作为参考”。
我的最后几个问题是:为什么验证数据应与训练数据对齐?数据集中“参考”的含义是什么,如何在训练过程中使用它?将参考设置为训练数据是否实现了对齐目标?此“参考”策略与交叉验证有何区别?
希望有人能帮我摆脱这个迷宫,谢谢!
![validation data creation step](https://istack.dev59.com/KnAI4.webp)