为了将图像输入到pytorch网络中,我首先需要将其缩小到一定的固定大小。起初,我使用PIL.Image.resize()方法进行操作,插值模式设置为BILINEAR。然后我认为,先将一批图像转换为pytorch张量,然后在GPU上一次性使用torch.nn.functional.interpolate()函数对整个张量进行缩放(也使用“bilinear”插值模式)会更方便。但是这导致模型准确性下降,因为现在推理期间所使用的缩放类型(torch)与训练期间使用的不同(PIL)。之后,我通过视觉比较两种缩小方法并发现它们产生了不同的结果。Pillow缩小似乎更加平滑。虽然两者都是双线性的,但它们在背后执行的操作是否不同呢?如果是这样,我也很好奇是否有办法通过torch张量缩放来实现与Pillow图像缩放相同的结果?
原始图片链接: Original image Pillow缩放后的图片: 火炬缩放图像:
原始图片链接: Original image Pillow缩放后的图片: 火炬缩放图像:
平均通道绝对差分图:
演示代码:import numpy as np
from PIL import Image
import torch
import torch.nn.functional as F
from torchvision import transforms
import matplotlib.pyplot as plt
pil_to_torch = transforms.ToTensor()
res_shape = (128, 128)
pil_img = Image.open('Lenna.png')
torch_img = pil_to_torch(pil_img)
pil_image_scaled = pil_img.resize(res_shape, Image.BILINEAR)
torch_img_scaled = F.interpolate(torch_img.unsqueeze(0), res_shape, mode='bilinear').squeeze(0)
pil_image_scaled_on_torch = pil_to_torch(pil_image_scaled)
relative_diff = torch.abs((pil_image_scaled_on_torch - torch_img_scaled) / pil_image_scaled_on_torch).mean().item()
print('relative pixel diff:', relative_diff)
pil_image_scaled_numpy = pil_image_scaled_on_torch.cpu().numpy().transpose([1, 2, 0])
torch_img_scaled_numpy = torch_img_scaled.cpu().numpy().transpose([1, 2, 0])
plt.imsave('pil_scaled.png', pil_image_scaled_numpy)
plt.imsave('torch_scaled.png', torch_img_scaled_numpy)
plt.imsave('mean_diff.png', np.abs(pil_image_scaled_numpy - torch_img_scaled_numpy).mean(-1))
Python 3.6.6,要求:
cycler==0.10.0
kiwisolver==1.1.0
matplotlib==3.2.1
numpy==1.18.2
Pillow==7.0.0
pyparsing==2.4.6
python-dateutil==2.8.1
six==1.14.0
torch==1.4.0
torchvision==0.5.0