我正在尝试理解何时在算法的哪个阶段应用Kfold CV和GridSearchCV。如果我理解正确,GridSearchCV用于超参数调整,即确定参数值将提供最佳结果,而Kfold CV用于改善泛化,使我们像在不同的折叠上进行训练,从而减少偏差(如果数据按某种特定方式排序)并增加泛化能力。现在的问题是,GridSearchCV是否也使用CV参数进行交叉验证?那么为什么我们需要Kfold CV?如果我们需要,那么我们是在GridSearchCV之前还是之后进行呢?对此,简要概述过程将非常有帮助。
我正在尝试理解何时在算法的哪个阶段应用Kfold CV和GridSearchCV。如果我理解正确,GridSearchCV用于超参数调整,即确定参数值将提供最佳结果,而Kfold CV用于改善泛化,使我们像在不同的折叠上进行训练,从而减少偏差(如果数据按某种特定方式排序)并增加泛化能力。现在的问题是,GridSearchCV是否也使用CV参数进行交叉验证?那么为什么我们需要Kfold CV?如果我们需要,那么我们是在GridSearchCV之前还是之后进行呢?对此,简要概述过程将非常有帮助。
GridSearchCV
比KFold
更高级。前者使用后者(或其他类似的东西)。
KFold
是相对低级的结构,它提供了一系列训练/测试索引。您可以使用这些索引来做很多事情,包括找到模型的OOB性能和/或调整超参数(基于OOB性能搜索超参数)。
GridSearchCV
是一个更高级的结构,它通过其cv
参数接受CV引擎(如KFold
)。它使用CV引擎在超参数上进行搜索(在本例中,使用网格搜索)。