如何将cv2.imread与keras的image.img_load输出匹配

23

我正在学习深度学习。训练了一个图像分类算法。但问题是,为了训练图像,我使用了:

test_image = image.load_img('some.png', target_size = (64, 64))
test_image = image.img_to_array(test_image)

而实际应用中我使用:

test_image = cv2.imread('trick.png')
test_image = cv2.resize(test_image, (64, 64))

但我发现它们提供了一个不同的ndarray(不同的数据):

从load_image获取的最后几个条目:

  [ 64.  71.  66.]
  [ 64.  71.  66.]
  [ 62.  69.  67.]]]

cv2.imread的最新条目:

  [ 15  23  27]
  [ 16  24  28]
  [ 14  24  28]]]

所以系统目前无法正常工作。有没有一种方法可以将一个结果与另一个结果进行匹配?


不同在哪里?不同的形状、数据吗? - nuric
@nuric 更新了问题 - wasd
image.load_img() 使用 PIL 库读取的是 RGB 格式的图片,而 cv2.imread() 则读取的是 BGR 格式的图片。这是两者之间唯一的区别。 - enterML
3个回答

23

OpenCV 以 BGR 格式读取图像,而在 Keras 中则表示为 RGB。为使 OpenCV 版本对应我们期望的顺序(RGB),只需反转通道:

test_image = cv2.imread('trick.png')
test_image = cv2.resize(test_image, (64, 64))
test_image = test_image[...,::-1] # Added

最后一行将通道反转为RGB顺序。然后,您可以将其输入到Keras模型中。

我想要补充的另一点是,cv2.imread通常使用uint8精度读入图像。检查加载的Keras图像的输出,您会发现数据以浮点精度表示,因此您可能还需要转换为浮点表示,例如float32

import numpy as np
# ...
# ...
test_image = test_image[...,::-1].astype(np.float32)

最后,根据您训练模型的方式,通常习惯将图像像素值归一化为[0,1]范围。如果您在keras模型中进行了此操作,请确保在通过OpenCV读取图像时将值除以255:

import numpy as np
# ...
# ...
test_image = (test_image[...,::-1].astype(np.float32)) / 255.0

2
@JeruLuke :D 我以前从没听过这个表达。我听过最接近的是用鸟来比喻,但芒果也可以 :) - rayryeng

8

最近,我遇到了同样的问题。我尝试使用OpenCV转换颜色通道并调整图像大小。然而,PIL和OpenCV在图像调整方面有非常不同的方法。

以下是解决此问题的确切方法。

这是一个函数,它接受图像文件路径,将其转换为目标大小并为Keras模型做准备 -

import cv2
import keras
import numpy as np
from keras.preprocessing import image
from PIL import Image

def prepare_image (file):
    im_resized = image.load_img(file, target_size = (224,224))
    img_array = image.img_to_array(im_resized)
    image_array_expanded = np.expand_dims(img_array, axis = 0)
    return keras.applications.mobilenet.preprocess_input(image_array_expanded)

# execute the function
PIL_image = prepare_image ("lena.png")

如果您有一个OpenCV图像,则函数将如下所示 -
def prepare_image2 (img):
    # convert the color from BGR to RGB then convert to PIL array
    cvt_image =  cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    im_pil = Image.fromarray(cvt_image)

    # resize the array (image) then PIL image
    im_resized = im_pil.resize((224, 224))
    img_array = image.img_to_array(im_resized)
    image_array_expanded = np.expand_dims(img_array, axis = 0)
    return keras.applications.mobilenet.preprocess_input(image_array_expanded)

# execute the function
img = cv2.imread("lena.png")
cv2_image = prepare_image2 (img)

# finally check if it is working  
np.array_equal(PIL_image, cv2_image)
>> True

1
当然,因为您正在使用预训练网络,所以需要使用它们的预处理方法。还要注意您正在使用MobileNetV2。您应该扩展您的答案以概括任何预训练网络。 - rayryeng
很好的解决方案,但我遇到了“'str' object has no attribute 'img_to_array'”的问题,所以解决方案是 { img_ = tf.keras.preprocessing.image.array_to_img(im_resized)img_array = tf.keras.preprocessing.image.img_to_array(img_) } - shivaraj karki

5
除了CV2使用BGR格式和Keras(使用PIL作为后端)使用RGB格式外,CV2和PIL使用相同参数的调整大小方法也有显著差异。 虽然可以在互联网上找到多个参考,但总体思想是两种调整大小算法中使用的像素坐标系统存在微妙差异,而且在插值算法的中间步骤中使用不同的浮点转换方法可能存在潜在问题。最终结果是一个视觉上类似的图像,但在版本之间略有偏移/扰动。这是一个完美的对抗性攻击的例子,尽管输入差异很小,但可能会导致精度巨大的差异。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接