你是否会分别在训练数据和测试数据上应用最小-最大缩放?

18

在对特征进行最小最大值缩放以进行归一化时,您是在将数据集拆分为训练、验证和测试数据之前对整个数据集应用最小最大值缩放吗?

还是先拆分数据集然后在每个数据集上应用最小最大值缩放,使用该特定数据集的最小和最大值?

最后,当对新输入进行预测时,是否应该使用训练数据中的最小值和最大值对该输入的特征进行归一化处理,然后再输入到网络中?

1个回答

23

分割、缩放。想象一下:你不知道真实世界的数据长什么样子,因此不能将训练数据缩放到它上面。测试数据是真实世界数据的代理,所以你应该以同样的方式处理它。

再强调一遍:先拆分,缩放你的训练数据,然后使用来自训练数据的缩放方法对测试数据进行处理。


谢谢!很有道理。 - shekit
4
这会导致训练数据集的值缩放到0到1之间(不错!),而测试数据集则根据拆分和混洗缩放到例如-0.3到1.3之间。这是一个问题吗?我们该如何处理? - felice
1
这不是问题。(更具体的回答是:这取决于您的特定用例。) - Arya McCarthy
Z分数怎么样?我们需要使用训练数据的平均值和标准差吗? - Yacine

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接