我知道train_test_split方法可以将数据集随机划分为训练集和测试集。使用random_state=int可以确保每次调用该方法时,此数据集的划分相同。
我的问题略有不同。
我有两个数据集A和B,它们包含相同的示例集,并且每个数据集中这些示例的顺序也相同。但关键区别在于,每个数据集中的示例使用不同的特征集。
我想测试一下,在A中使用的特征是否比B中使用的特征导致更好的性能。因此,我希望在A和B上调用train_test_split时,可以获取两个数据集上相同的拆分,以便比较有意义。
这可能吗?我是否只需要确保两个数据集的方法调用中的random_state相同?
谢谢