train_test_split中的分层参数与StratifiedShuffleSplit有何区别？

Question

5

在sklearn的train_test_split函数中使用stratify参数和StratifiedShuffleSplit函数有什么区别？它们不是做同样的事情吗？

- Rohan Pinto

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- desertnaut · Accepted Answer

这两个模块执行不同的操作。

正如其名称所示，train_test_split 用于将数据拆分为单个训练和测试子集，并且 stratify 参数允许以分层方式进行拆分。

另一方面，StratifiedShuffleSplit 提供了交叉验证的拆分；来自 docs：

引用： “分层随机洗牌交叉验证器” “提供训练/测试索引以将数据分割为训练/测试集。”

请注意集的复数形式（强调我的）。

因此，当我们想要确保 CV 拆分是分层的时，应该使用 StratifiedShuffleSplit 而不是 KFold，而不是替换 train_test_split。