在训练和测试集上都进行数据增强是常见的做法,比如对图像数据集进行随机裁剪等程序化样本增加操作。还是只在训练数据集上进行增强呢?
在训练和测试集上都进行数据增强是常见的做法,比如对图像数据集进行随机裁剪等程序化样本增加操作。还是只在训练数据集上进行增强呢?
仅适用于训练。数据增强被用来增加训练集的大小,获取更多不同的图像。从技术上讲,您可以在测试集上使用数据增强来查看模型在这样的图像上的表现,但通常情况下,人们不这么做。
数据增强仅在训练集上进行,因为它有助于模型变得更加普遍和稳健。因此,对测试集进行增强是毫无意义的。
一些图像预处理软件工具,例如 Roboflow (https://roboflow.com/) ,同样将数据增强应用于测试数据。如果处理的是小而罕见的对象,比如脑微出血(这些在磁共振图像上很难发现),增强测试集可能会有帮助。这样你就可以验证你的模型是否已经学会了在不同方向和亮度条件下检测这些对象(前提是你的训练数据以相同的方式进行了增强)。