GridSearchCV是否执行交叉验证？

Question

25

我目前正在解决一个问题，比较三种不同的机器学习算法在相同数据集上的表现。我将数据集分为70/30的训练/测试集，然后使用GridSearchCV和X_train, y_train寻找每个算法的最佳参数。

第一个问题是，我应该在训练集上执行网格搜索，还是整个数据集上执行？

第二个问题是，我知道GridSearchCV在其实现中使用K-fold，如果我在GridSearchCV中对比了三种算法并使用相同的X_train, y_train，那么这是否意味着我进行了交叉验证？

非常感谢您的回答。

- kevinH

2个回答

7

是的，GridSearchCV执行交叉验证。如果我正确理解这个概念 - 您希望将数据集的一部分保留给模型以进行测试。

因此，您将在训练数据集上训练您的模型，然后在测试数据集上测试它们。

- MaxU - stand with Ukraine

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Vivek Kumar · Accepted Answer

scikit中所有名称以CV结尾的估计器都执行交叉验证。但您需要保留一个单独的测试集来衡量性能。

因此，您需要将整个数据分成训练集和测试集。暂时忘记这个测试数据。

然后仅将此训练数据传递给GridSearch。 GridSearch将进一步将此训练数据分成训练集和测试集，以调整传递给它的超参数。最后，在找到的最佳参数下在整个训练数据上拟合模型。

现在，您需要在一开始保留的测试数据上测试此模型。这将为您提供模型的近似实际性能。

如果您将整个数据用于GridSearchCV，则会将测试数据泄漏到参数调整中，那么最终模型可能在新的未见数据上表现不佳。

您可以查看我的其他回答，其中更详细地描述了GridSearch：