一些文章指出,如果只有训练集和测试集,我们需要首先使用fit_transform()对训练集进行缩放,然后只对测试集使用transform(),以防止数据泄漏。
在我的情况下,我还有验证集。
我认为以下代码中的任何一种都可以使用,但我不能完全依赖它们。感谢任何形式的帮助! 1)
在我的情况下,我还有验证集。
我认为以下代码中的任何一种都可以使用,但我不能完全依赖它们。感谢任何形式的帮助! 1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size = 2/7)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_val = scaler.transform(X_val)
X_test = scaler.transform(X_test)
2)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size = 2/7)
X_test = scaler.transform(X_test)