在Python中比较URL中的图像和文件系统中的图像

5

有没有一种快速简便的方法来进行这样的比较?

我在stackoverflow上找到了几个图像比较的问题,但是没有一个能够回答这个问题。

我在文件系统中有图像文件和一个从url获取图像的脚本。我想检查url中的图像是否已经与磁盘上的图像相同。通常情况下,我会将磁盘中的图像和url加载到PIL对象中,并使用以下函数:

def equal(im1, im2):
    return ImageChops.difference(im1, im2).getbbox() is None

但如果你使用PIL将图像保存到磁盘中,则即使将质量设置为100,它仍会被压缩,以下代码无法解决这个问题:im1.save(outfile,quality=100)
我的代码如下: http://pastebin.com/295kDMsp 但是图像总是重新保存。

使用无损图像格式,而不是JPEG。(但如果您只是检查确切的身份,请比较图像哈希值。) - Gareth Rees
比较两个文件的MD5校验和 - Alexey Kachayev
我尝试比较MD5摘要,但最终找到了一种从URL中获取文件的MD5而不将其保存到磁盘的方法后,它们似乎有不同的摘要。如果您有关于如何比较磁盘中的文件和URL中的文件的示例,请发布 :) 将每个文件保存到磁盘以进行比较会消耗大量磁盘I/O,因为它正在处理13k张图像。 - Oskari Kantoniemi
如果图像有最细微的差异,那么取md5值是一个非常不值得的想法。有更好的方法来衡量图像相似度,我稍后会介绍其中之一。 - mmgp
3个回答

15
这个问题的标题表明您需要比较两个完全相同的图像,这很容易做到。但是,如果您要比较相似的图像,那么这就解释了为什么您没有找到完全令人满意的答案:对于每个问题,没有一种适用的度量标准可以给出预期的结果(请注意,预期的结果因应用程序而异)。其中一个问题是,很难 - 在没有共识的情况下 - 比较具有多个波段的图像,例如彩色图像。为了解决这个问题,我将考虑在每个波段中应用给定度量标准的应用程序,该度量标准的结果将是最低的结果值。这假设该度量标准具有良好建立的范围,例如[0,1],并且该范围内的最大值意味着图像是相同的(根据给定的度量标准)。相反,最小值意味着图像完全不同。
因此,在这里我将为您提供两个指标。其中之一是SSIM,另一个我将称之为NRMSE(均方误差的归一化根)。我选择介绍第二个指标,因为它是一种非常简单的方法,可能已经足够解决您的问题。

让我们开始看一些例子。这些图片按照以下顺序排列:f = PNG格式的原始图片,g1 = f 50%质量的JPEG图片(使用convert f -quality 50 g创建),g2 = f 1%质量的JPEG图片,h = "lightened" g2。

enter image description here enter image description here enter image description here enter image description here

结果(四舍五入):

  • NRMSE(f, g1) = 0.96
  • NRMSE(f, g2) = 0.88
  • NRMSE(f, h) = 0.63
  • SSIM(f, g1) = 0.98
  • SSIM(f, g2) = 0.81
  • SSIM(f, h) = 0.55

从某种意义上说,这两个指标都能很好地处理修改后的图像,但是SSIM表现更为敏感,当图像实际上不同但视觉上相似时,它报告较低的相似度,并在图像视觉上非常相似时报告更高的值。下一个例子考虑一个彩色图像(f = 原始图像,g = 5% 质量的 JPEG)。

enter image description here enter image description here

  • NRMSE(f, g) = 0.92
  • SSIM(f, g) = 0.61

因此,由您决定您喜欢的度量标准和其阈值。

现在来讲度量标准。我所称的NRMSE简单地是1-[RMSE/(maxval-minval)]。其中maxval是要比较的两幅图像中的最大强度,而minval也同理。RMSE由MSE的平方根给出:sqrt[(sum(A-B)**2)/|A|],其中|A|表示A中的元素数量。通过这样做,RMSE给出的最大值为maxval。如果您想进一步了解图像中MSE的含义,请参见例如https://ece.uwaterloo.ca/~z70wang/publications/SPM09.pdf。度量标准SSIM(结构相似性)更加复杂,您可以在前面提供的链接中找到详细信息。为了轻松应用这些度量标准,请考虑以下代码:
import numpy
from scipy.signal import fftconvolve

def ssim(im1, im2, window, k=(0.01, 0.03), l=255):
    """See https://ece.uwaterloo.ca/~z70wang/research/ssim/"""
    # Check if the window is smaller than the images.
    for a, b in zip(window.shape, im1.shape):
        if a > b:
            return None, None
    # Values in k must be positive according to the base implementation.
    for ki in k:
        if ki < 0:
            return None, None

    c1 = (k[0] * l) ** 2
    c2 = (k[1] * l) ** 2
    window = window/numpy.sum(window)

    mu1 = fftconvolve(im1, window, mode='valid')
    mu2 = fftconvolve(im2, window, mode='valid')
    mu1_sq = mu1 * mu1
    mu2_sq = mu2 * mu2
    mu1_mu2 = mu1 * mu2
    sigma1_sq = fftconvolve(im1 * im1, window, mode='valid') - mu1_sq
    sigma2_sq = fftconvolve(im2 * im2, window, mode='valid') - mu2_sq
    sigma12 = fftconvolve(im1 * im2, window, mode='valid') - mu1_mu2

    if c1 > 0 and c2 > 0:
        num = (2 * mu1_mu2 + c1) * (2 * sigma12 + c2)
        den = (mu1_sq + mu2_sq + c1) * (sigma1_sq + sigma2_sq + c2)
        ssim_map = num / den
    else:
        num1 = 2 * mu1_mu2 + c1
        num2 = 2 * sigma12 + c2
        den1 = mu1_sq + mu2_sq + c1
        den2 = sigma1_sq + sigma2_sq + c2
        ssim_map = numpy.ones(numpy.shape(mu1))
        index = (den1 * den2) > 0
        ssim_map[index] = (num1[index] * num2[index]) / (den1[index] * den2[index])
        index = (den1 != 0) & (den2 == 0)
        ssim_map[index] = num1[index] / den1[index]

    mssim = ssim_map.mean()
    return mssim, ssim_map


def nrmse(im1, im2):
    a, b = im1.shape
    rmse = numpy.sqrt(numpy.sum((im2 - im1) ** 2) / float(a * b))
    max_val = max(numpy.max(im1), numpy.max(im2))
    min_val = min(numpy.min(im1), numpy.min(im2))
    return 1 - (rmse / (max_val - min_val))


if __name__ == "__main__":
    import sys
    from scipy.signal import gaussian
    from PIL import Image

    img1 = Image.open(sys.argv[1])
    img2 = Image.open(sys.argv[2])

    if img1.size != img2.size:
        print "Error: images size differ"
        raise SystemExit

    # Create a 2d gaussian for the window parameter
    win = numpy.array([gaussian(11, 1.5)])
    win2d = win * (win.T)

    num_metrics = 2
    sim_index = [2 for _ in xrange(num_metrics)]
    for band1, band2 in zip(img1.split(), img2.split()):
        b1 = numpy.asarray(band1, dtype=numpy.double)
        b2 = numpy.asarray(band2, dtype=numpy.double)
        # SSIM
        res, smap = ssim(b1, b2, win2d)

        m = [res, nrmse(b1, b2)]
        for i in xrange(num_metrics):
            sim_index[i] = min(m[i], sim_index[i])

    print "Result:", sim_index

请注意,当给定的窗口大于图像时,ssim 拒绝比较图像。 window 通常非常小,默认为11x11,因此如果您的图像小于该大小,则没有太多“结构”(从度量的名称中可以看出)可供比较,您应该使用其他方法(例如另一个函数nrmse)。也许有更好的方法来实现ssim,因为在Matlab中运行得更快。

1
这个答案解释了如何使用 scikit-image 库的 compare_ssim 方法。https://stackoverflow.com/a/52207748/3337089 - Nagabhushan S N

1

您可以使用平方差进行比较。然后,您将设置一个阈值,例如95%,如果它们非常相似,则无需下载。这消除了压缩问题。


你有任何例子吗?(我个人很好奇!) - fish2000
我尝试计算均方根差,但最终得到的结果是从URL加载的图像直方图和从文件系统加载的图像直方图之间有大约2000的差异。 - Oskari Kantoniemi
1
尝试加载相同的图像,然后更改几个像素以查看差异。 - Bartlomiej Lewandowski

0

沿着Bartlomiej Lewandowski的建议,我建议比较直方图熵,这很容易且相对快速计算:

def histogram_entropy(im):
    """ Calculate the entropy of an images' histogram.
    Used for "smart cropping" in easy-thumbnails;
    see also https://raw.github.com/SmileyChris/easy-thumbnails/master/easy_thumbnails/utils.py
    """
    if not isinstance(im, Image.Image):
        return 0  # Fall back to a constant entropy.

    histogram = im.histogram()
    hist_ceil = float(sum(histogram))
    histonorm = [histocol / hist_ceil for histocol in histogram]

...这个函数是我在auto-square-crop filter中使用的一个函数,但你可以使用熵值来比较任意两个图像(即使它们大小不同)。

我还有其他应用这种想法的例子,如果您想让我发送特定的示例,请在评论中告诉我。


1
那个函数似乎确实返回了有用的东西。我从磁盘文件中得到了值 5.74535571765,从 URL 中读取的文件得到了值 4.85352821002。我该如何比较这些值,并决定文件是否相似? - Oskari Kantoniemi
1
这个直方图比较的问题在于,我可以拥有完全不同的图像(例如只需对原始图像取反),并获得完全相同的值。 - mmgp
@mmgp 是的,但在这种情况下,这种类型的碰撞很可能不会成为问题。 - fish2000
1
@fish2000 我的评论只是关于该方法无法正确区分差异,在某些情况下产生无意义结果的简化。这可能适用于任何度量标准,但我试图指出这个特定的度量标准更容易出现问题,而不是试图冒犯任何人。 - mmgp
你应该对 histonorm 取平均值吗? - Aaron C

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接