在Python中比较URL中的图像和文件系统中的图像

Question

在Python中比较URL中的图像和文件系统中的图像

pythonimage-processingdiffpython-imaging-libraryimage-comparison

5

有没有一种快速简便的方法来进行这样的比较？

我在stackoverflow上找到了几个图像比较的问题，但是没有一个能够回答这个问题。

我在文件系统中有图像文件和一个从url获取图像的脚本。我想检查url中的图像是否已经与磁盘上的图像相同。通常情况下，我会将磁盘中的图像和url加载到PIL对象中，并使用以下函数：

def equal(im1, im2):
    return ImageChops.difference(im1, im2).getbbox() is None

但如果你使用PIL将图像保存到磁盘中，则即使将质量设置为100，它仍会被压缩，以下代码无法解决这个问题：im1.save(outfile,quality=100)。

我的代码如下： http://pastebin.com/295kDMsp 但是图像总是重新保存。

- Oskari Kantoniemi

使用无损图像格式，而不是JPEG。（但如果您只是检查确切的身份，请比较图像哈希值。） - Gareth Rees

比较两个文件的MD5校验和 - Alexey Kachayev

我尝试比较MD5摘要，但最终找到了一种从URL中获取文件的MD5而不将其保存到磁盘的方法后，它们似乎有不同的摘要。如果您有关于如何比较磁盘中的文件和URL中的文件的示例，请发布 :) 将每个文件保存到磁盘以进行比较会消耗大量磁盘I/O，因为它正在处理13k张图像。 - Oskari Kantoniemi

如果图像有最细微的差异，那么取md5值是一个非常不值得的想法。有更好的方法来衡量图像相似度，我稍后会介绍其中之一。 - mmgp

3个回答

1

您可以使用平方差进行比较。然后，您将设置一个阈值，例如95％，如果它们非常相似，则无需下载。这消除了压缩问题。

- Bartlomiej Lewandowski

你有任何例子吗？（我个人很好奇！） - fish2000

我尝试计算均方根差，但最终得到的结果是从URL加载的图像直方图和从文件系统加载的图像直方图之间有大约2000的差异。 - Oskari Kantoniemi

1

尝试加载相同的图像，然后更改几个像素以查看差异。 - Bartlomiej Lewandowski

0

沿着Bartlomiej Lewandowski的建议，我建议比较直方图熵，这很容易且相对快速计算：

def histogram_entropy(im):
    """ Calculate the entropy of an images' histogram.
    Used for "smart cropping" in easy-thumbnails;
    see also https://raw.github.com/SmileyChris/easy-thumbnails/master/easy_thumbnails/utils.py
    """
    if not isinstance(im, Image.Image):
        return 0  # Fall back to a constant entropy.

    histogram = im.histogram()
    hist_ceil = float(sum(histogram))
    histonorm = [histocol / hist_ceil for histocol in histogram]

...这个函数是我在auto-square-crop filter中使用的一个函数，但你可以使用熵值来比较任意两个图像（即使它们大小不同）。

我还有其他应用这种想法的例子，如果您想让我发送特定的示例，请在评论中告诉我。

- fish2000

1

那个函数似乎确实返回了有用的东西。我从磁盘文件中得到了值 5.74535571765，从 URL 中读取的文件得到了值 4.85352821002。我该如何比较这些值，并决定文件是否相似？ - Oskari Kantoniemi

1

这个直方图比较的问题在于，我可以拥有完全不同的图像（例如只需对原始图像取反），并获得完全相同的值。 - mmgp

@mmgp 是的，但在这种情况下，这种类型的碰撞很可能不会成为问题。 - fish2000

1

@fish2000 我的评论只是关于该方法无法正确区分差异，在某些情况下产生无意义结果的简化。这可能适用于任何度量标准，但我试图指出这个特定的度量标准更容易出现问题，而不是试图冒犯任何人。 - mmgp

你应该对 histonorm 取平均值吗？ - Aaron C

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- mmgp · Accepted Answer

这个问题的标题表明您需要比较两个完全相同的图像，这很容易做到。但是，如果您要比较相似的图像，那么这就解释了为什么您没有找到完全令人满意的答案：对于每个问题，没有一种适用的度量标准可以给出预期的结果（请注意，预期的结果因应用程序而异）。其中一个问题是，很难 - 在没有共识的情况下 - 比较具有多个波段的图像，例如彩色图像。为了解决这个问题，我将考虑在每个波段中应用给定度量标准的应用程序，该度量标准的结果将是最低的结果值。这假设该度量标准具有良好建立的范围，例如[0,1]，并且该范围内的最大值意味着图像是相同的（根据给定的度量标准）。相反，最小值意味着图像完全不同。

因此，在这里我将为您提供两个指标。其中之一是SSIM，另一个我将称之为NRMSE（均方误差的归一化根）。我选择介绍第二个指标，因为它是一种非常简单的方法，可能已经足够解决您的问题。

让我们开始看一些例子。这些图片按照以下顺序排列：f = PNG格式的原始图片，g1 = f 50%质量的JPEG图片（使用convert f -quality 50 g创建），g2 = f 1%质量的JPEG图片，h = "lightened" g2。

enter image description here

结果（四舍五入）：

NRMSE(f, g1) = 0.96
NRMSE(f, g2) = 0.88
NRMSE(f, h) = 0.63
SSIM(f, g1) = 0.98
SSIM(f, g2) = 0.81
SSIM(f, h) = 0.55

从某种意义上说，这两个指标都能很好地处理修改后的图像，但是SSIM表现更为敏感，当图像实际上不同但视觉上相似时，它报告较低的相似度，并在图像视觉上非常相似时报告更高的值。下一个例子考虑一个彩色图像（f = 原始图像，g = 5% 质量的 JPEG）。

enter image description here

NRMSE(f, g) = 0.92
SSIM(f, g) = 0.61

因此，由您决定您喜欢的度量标准和其阈值。

现在来讲度量标准。我所称的NRMSE简单地是1-[RMSE/(maxval-minval)]。其中maxval是要比较的两幅图像中的最大强度，而minval也同理。RMSE由MSE的平方根给出：sqrt[(sum(A-B)**2)/|A|]，其中|A|表示A中的元素数量。通过这样做，RMSE给出的最大值为maxval。如果您想进一步了解图像中MSE的含义，请参见例如https://ece.uwaterloo.ca/~z70wang/publications/SPM09.pdf。度量标准SSIM（结构相似性）更加复杂，您可以在前面提供的链接中找到详细信息。为了轻松应用这些度量标准，请考虑以下代码：

import numpy
from scipy.signal import fftconvolve

def ssim(im1, im2, window, k=(0.01, 0.03), l=255):
    """See https://ece.uwaterloo.ca/~z70wang/research/ssim/"""
    # Check if the window is smaller than the images.
    for a, b in zip(window.shape, im1.shape):
        if a > b:
            return None, None
    # Values in k must be positive according to the base implementation.
    for ki in k:
        if ki < 0:
            return None, None

    c1 = (k[0] * l) ** 2
    c2 = (k[1] * l) ** 2
    window = window/numpy.sum(window)

    mu1 = fftconvolve(im1, window, mode='valid')
    mu2 = fftconvolve(im2, window, mode='valid')
    mu1_sq = mu1 * mu1
    mu2_sq = mu2 * mu2
    mu1_mu2 = mu1 * mu2
    sigma1_sq = fftconvolve(im1 * im1, window, mode='valid') - mu1_sq
    sigma2_sq = fftconvolve(im2 * im2, window, mode='valid') - mu2_sq
    sigma12 = fftconvolve(im1 * im2, window, mode='valid') - mu1_mu2

    if c1 > 0 and c2 > 0:
        num = (2 * mu1_mu2 + c1) * (2 * sigma12 + c2)
        den = (mu1_sq + mu2_sq + c1) * (sigma1_sq + sigma2_sq + c2)
        ssim_map = num / den
    else:
        num1 = 2 * mu1_mu2 + c1
        num2 = 2 * sigma12 + c2
        den1 = mu1_sq + mu2_sq + c1
        den2 = sigma1_sq + sigma2_sq + c2
        ssim_map = numpy.ones(numpy.shape(mu1))
        index = (den1 * den2) > 0
        ssim_map[index] = (num1[index] * num2[index]) / (den1[index] * den2[index])
        index = (den1 != 0) & (den2 == 0)
        ssim_map[index] = num1[index] / den1[index]

    mssim = ssim_map.mean()
    return mssim, ssim_map


def nrmse(im1, im2):
    a, b = im1.shape
    rmse = numpy.sqrt(numpy.sum((im2 - im1) ** 2) / float(a * b))
    max_val = max(numpy.max(im1), numpy.max(im2))
    min_val = min(numpy.min(im1), numpy.min(im2))
    return 1 - (rmse / (max_val - min_val))


if __name__ == "__main__":
    import sys
    from scipy.signal import gaussian
    from PIL import Image

    img1 = Image.open(sys.argv[1])
    img2 = Image.open(sys.argv[2])

    if img1.size != img2.size:
        print "Error: images size differ"
        raise SystemExit

    # Create a 2d gaussian for the window parameter
    win = numpy.array([gaussian(11, 1.5)])
    win2d = win * (win.T)

    num_metrics = 2
    sim_index = [2 for _ in xrange(num_metrics)]
    for band1, band2 in zip(img1.split(), img2.split()):
        b1 = numpy.asarray(band1, dtype=numpy.double)
        b2 = numpy.asarray(band2, dtype=numpy.double)
        # SSIM
        res, smap = ssim(b1, b2, win2d)

        m = [res, nrmse(b1, b2)]
        for i in xrange(num_metrics):
            sim_index[i] = min(m[i], sim_index[i])

    print "Result:", sim_index

请注意，当给定的窗口大于图像时，ssim 拒绝比较图像。 window 通常非常小，默认为11x11，因此如果您的图像小于该大小，则没有太多“结构”（从度量的名称中可以看出）可供比较，您应该使用其他方法（例如另一个函数nrmse）。也许有更好的方法来实现ssim，因为在Matlab中运行得更快。