ImageNet图像大小各异,但神经网络需要固定大小的输入。
一个解决方案是选择一个尽可能大的裁剪尺寸,以图像中心点为中心。这种方法虽然可行,但也有一些缺点。通常情况下,图像中感兴趣的物体的重要部分会被剪掉,甚至有时正确的物体完全缺失,而另一个属于不同类别的物体却可见,这意味着您的模型将对该图像进行错误的训练。
另一种解决方案是使用整个图像并将其零填充到每个图像具有相同的尺寸。虽然这似乎会干扰训练过程,使模型学习寻找靠近图像边缘的垂直/水平黑色补丁。
通常采用什么方法?
ImageNet图像大小各异,但神经网络需要固定大小的输入。
一个解决方案是选择一个尽可能大的裁剪尺寸,以图像中心点为中心。这种方法虽然可行,但也有一些缺点。通常情况下,图像中感兴趣的物体的重要部分会被剪掉,甚至有时正确的物体完全缺失,而另一个属于不同类别的物体却可见,这意味着您的模型将对该图像进行错误的训练。
另一种解决方案是使用整个图像并将其零填充到每个图像具有相同的尺寸。虽然这似乎会干扰训练过程,使模型学习寻找靠近图像边缘的垂直/水平黑色补丁。
通常采用什么方法?
您可以查看最新的 ImageNet 网络如 VGG 和 ResNet 是如何训练的,通常会详细描述这个步骤。