在GridsearchCV上进行预处理

Question

4

我正在使用 GridsearchCV 来调整超参数，现在我想在训练和验证步骤中进行 min-max 规范化（StandardScaler()）。但我认为我不能这样做。

问题是：

如果我在整个训练集上应用预处理步骤并将其发送到 GridsearchCV 进行 10 折交叉验证。这会导致数据泄漏，对吗？因为训练集将运行 10 次，这意味着 9 次用于训练，1 次用于测试。规范化应该只应用于训练集，而不是验证集，对吗？
如果我使用 sklearn 的 Pipeline，这不会解决这个问题，对吗？因为它只运行一次，再次导致数据泄漏。
还有其他方法可以做到这一点，并仍然使用 GridsearchCV 来调整参数吗？

- Puntawat Ponglertnapakorn

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Ahmed Ragab · Accepted Answer

确实，这会导致数据泄漏，很好你发现了！

使用管道的解决方案是，在管道中将StandardScaler作为第一个操作，然后选择分类器，并最终将此管道传递给GridSearchCV。

最初的回答：

这将导致数据泄露，非常好的是您已经发现了它！使用管道的解决方案是，在管道中使用StandardScaler作为第一步操作，然后选择分类器，最后将该管道传递给GridSearchCV。

clf = make_pipeline(StandardScaler(), 
                    MyClassifier())
grid_search = GridSearchCV(clf, refit=True)

想要了解更多信息，请查看这篇文章

IT技术相关内容：

最初的回答