在Go中将一个JPEG文件的元数据复制到另一个文件。

6

我正在尝试从一个没有元数据的JPEG文件复制EXIF标签到另一个文件。我尝试按照这个评论中描述的方法进行。

我的想法是从标签源文件中复制直到第一个ffdb(不包括该标记)之前的所有内容,然后从图像源文件(没有标签)中复制从第一个ffdb(包括该标记)开始的所有内容。生成的文件损坏了(缺少SOS标记)。

包含Luatic的建议的完整复现代码可以在https://go.dev/play/p/9BLjuZk5qlr找到。只需在包含具有标签的test.jpg文件的目录中运行它。

这是用于实现的Go代码草稿。

func copyExif(from, to string) error {
    os.Rename(to, to+"~")
    //defer os.Remove(to + "~")

    tagsSrc, err := os.Open(from)
    if err != nil {
        return err
    }
    defer tagsSrc.Close()

    imageSrc, err := os.Open(to + "~")
    if err != nil {
        return err
    }
    defer imageSrc.Close()

    dest, err := os.Create(to)
    if err != nil {
        return err
    }
    defer dest.Close()

    // copy from tagsSrc until ffdb, excluded
    buf := make([]byte, 1000000)
    n, err := tagsSrc.Read(buf)
    if err != nil {
        return err
    }
    x := 0
    for i := 0; i < n-1; i++ {
        if buf[i] == 0xff && buf[i+1] == 0xdb {
            x = i
            break
        }
    }
    _, err = dest.Write(buf[:x])
    if err != nil {
        return err
    }

    // skip ffd8 from imageSrc, then copy the rest (there are no tags here)
    skip := []byte{0, 0}
    _, err = imageSrc.Read(skip)
    if err != nil {
        return err
    }
    _, err = io.Copy(dest, imageSrc)
    if err != nil {
        return err
    }

    return nil
}

检查结果文件,看起来代码做了我之前描述的事情。
左上方是标签的来源。左下方是图像的来源。右边是结果。

result

有人知道我缺了什么吗?谢谢。


你能提供你正在测试的图片吗? - Luatic
另外,你能详细说明一下你所说的“复制元数据”是什么意思吗?如果两个图像都有元数据,那么“旧”的元数据是否应该完全丢弃并用新的元数据替换?你只关心EXIF信息还是也包括版权声明和评论? - Luatic
第二张图片完全没有元数据。你可以使用带有EXIF的任何JPEG作为EXIF源,也可以使用由jpeg.Encode编写的任何JPEG作为图像数据源。我会在问题中提供一个完整的示例。 - neclepsio
我添加了一个完整的重现器,可在https://go.dev/play/p/9BLjuZk5qlr上找到。只需在包含带标签的test.jpg的文件夹中运行它。 - neclepsio
我添加了一个完整的复现器,可以在https://go.dev/play/p/9BLjuZk5qlr上找到。只需在包含带有标签的test.jpg的文件夹中运行它即可。 - undefined
1个回答

1

这比预期的要困难得多。我参考了这个资源,它解释了JPEG的一般结构,其中流段的唯一例外是"熵编码段"(ECS),其中包含了实际的图像数据。

你的方法存在问题

我的想法是从标签源文件中复制所有内容,直到第一个ffdb(不包括该标记),然后从图像源文件中复制所有内容(没有标签),从第一个ffdb(包括该标记)开始。结果文件损坏(缺少SOS标记)。

这对JPEG文件做出了非常强烈的假设,而这些假设并不成立。首先,ffdb很可能会出现在段内的某个位置。段的顺序也非常松散,所以无法保证ffdb之前或之后会出现什么(定义量化表的段)。即使这种方法在大多数情况下可能奏效,它仍然是一种非常脆弱、不可靠的解决方案。

正确的方法

正确的方法是遍历所有片段,从提供元数据的文件中仅复制元数据片段,从提供图像数据的文件中仅复制非元数据片段。

复杂之处在于由于某种原因,ECS(扫描开始)不遵循片段约定。因此,在读取SOS(扫描开始)后,我们需要通过找到下一个片段标记:0xFF后跳转到ECS的末尾,该标记可能既不是数据(零),也不是“重启标记”(0xD0-0xD7)。

为了测试,我使用了具有EXIF元数据的此图像。我的测试命令如下:

cp exif.jpg exif_stripped.jpg && exiftool -All= exif_stripped.jpg && go run main.go exif.jpg exif_stripped.jpg

我使用了exiftool来去除EXIF元数据,然后通过重新读取它来测试Go程序。使用exiftool exif_stripped.jpg(或您选择的图像查看器)查看元数据,并与exiftool exif.jpg的输出进行比较(附注:您可能完全可以通过使用exiftool来使这个Go程序过时)。
我编写的程序替换了EXIF元数据、注释和版权声明。我为测试添加了一个简单的命令行界面。如果您只想保留EXIF元数据,请将isMetaTagType函数更改为
func isMetaTagType(tagType byte) bool { return tagType == exif }

完整计划

package main

import (
    "os"
    "io"
    "bufio"
    "errors"
)

const (
    soi = 0xD8
    eoi = 0xD9
    sos = 0xDA
    exif = 0xE1
    copyright = 0xEE
    comment = 0xFE
)

func isMetaTagType(tagType byte) bool {
    // Adapt as needed
    return tagType == exif || tagType == copyright || tagType == comment
}

func copySegments(dst *bufio.Writer, src *bufio.Reader, filterSegment func(tagType byte) bool) error {
    var buf [2]byte
    _, err := io.ReadFull(src, buf[:])
    if err != nil { return err }
    if buf != [2]byte{0xFF, soi} {
        return errors.New("expected SOI")
    }
    for {
        _, err := io.ReadFull(src, buf[:])
        if err != nil { return err }
        if buf[0] != 0xFF {
            return errors.New("invalid tag type")
        }
        if buf[1] == eoi {
            // Hacky way to check for EOF
            n, err := src.Read(buf[:1])
            if err != nil && err != io.EOF { return err }
            if n > 0 {
                return errors.New("EOF expected after EOI")
            }
            return nil
        }
        sos := buf[1] == 0xDA
        filter := filterSegment(buf[1])
        if filter {
            _, err = dst.Write(buf[:])
            if err != nil { return err }
        }

        _, err = io.ReadFull(src, buf[:])
        if err != nil { return err }
        if filter {
            _, err = dst.Write(buf[:])
            if err != nil { return err }
        }

        // Note: Includes the length, but not the tag, so subtract 2
        tagLength := ((uint16(buf[0]) << 8) | uint16(buf[1])) - 2
        if filter {
            _, err = io.CopyN(dst, src, int64(tagLength))
        } else {
            _, err = src.Discard(int(tagLength))
        }
        if err != nil { return err }
        if sos {
            // Find next tag `FF xx` in the stream where `xx != 0` to skip ECS
            // See https://dev59.com/YkzSa4cB1Zd3GeqPoKPz
            for {
                bytes, err := src.Peek(2)
                if err != nil { return err }
                if bytes[0] == 0xFF {
                    data, rstMrk := bytes[1] == 0, bytes[1] >= 0xD0 && bytes[1] <= 0xD7
                    if !data && !rstMrk {
                        break
                    }
                }
                if filter {
                    err = dst.WriteByte(bytes[0])
                    if err != nil { return err }
                }
                _, err = src.Discard(1)
                if err != nil { return err }
            }
        }
    }
}

func copyMetadata(outImagePath, imagePath, metadataImagePath string) error {
    outFile, err := os.Create(outImagePath)
    if err != nil { return err }
    defer outFile.Close()
    writer := bufio.NewWriter(outFile)

    imageFile, err := os.Open(imagePath)
    if err != nil { return err }
    defer imageFile.Close()
    imageReader := bufio.NewReader(imageFile)

    metaFile, err := os.Open(metadataImagePath)
    if err != nil { return err }
    defer metaFile.Close()
    metaReader := bufio.NewReader(metaFile)

    _, err = writer.Write([]byte{0xFF, soi})
    if err != nil { return err }
    {
        // Copy metadata segments
        // It seems that they need to come first!
        err = copySegments(writer, metaReader, isMetaTagType)
        if err != nil { return err }
        // Copy all non-metadata segments
        err = copySegments(writer, imageReader, func(tagType byte) bool {
            return !isMetaTagType(tagType)
        })
        if err != nil { return err }
    }
    _, err = writer.Write([]byte{0xFF, eoi})
    if err != nil { return err }

    // Flush the writer, otherwise the last couple buffered writes (including the EOI) won't get written!
    return writer.Flush()
}

func replaceMetadata(toPath, fromPath string) error {
    copyPath := toPath + "~"
    err := os.Rename(toPath, copyPath)
    if err != nil { return err }
    defer os.Remove(copyPath)
    return copyMetadata(toPath, copyPath, fromPath)
}

func main() {
    if len(os.Args) < 3 {
        println("args: FROM TO")
        return
    }
    err := replaceMetadata(os.Args[2], os.Args[1])
    if err != nil {
        println("replacing metadata failed: " + err.Error())
    }
}

非常感谢您的努力!还有一些问题。我用的方法是使用图像包解码和重新编码来去除元数据,在这种情况下,当再次使用您的测试图像进行读取时,我得到了“无效的JPEG格式:短Huffman数据”。使用我的图像,我得到了“在EOI之后预期EOF”。我将进行调试并向您报告。再次感谢您! - neclepsio
不客气!现在这很奇怪,我的图像查看器和exiftool都没有抱怨。我已经用Python的Pillow和Java的ImageIO进行了测试,两者似乎都接受exif_stripped.jpg,但我可以确认Go的jpeg.Decode会抛出这个错误。我会仔细看一下——要么很多JPEG解码器在这里太宽容了,要么Go的解码器太严格了。 - Luatic
@neclepsio找到了,我忘记刷新写入器了。在copyMetadata中将return nil改为return writer.Flush()就可以解决问题了。我实际上在文件末尾缺少了一个缓冲区,所以EOI等都丢失了。令我感到惊讶的是,Pillow、ImageIO、图像查看器等甚至不会输出警告,而Go则给我带来了积极的惊喜!有趣的事实是:在处理后尝试从exif_stripped.jpg中去除元数据确实会产生错误,但仅仅读取却没有问题。这个软件真是宽容得令人发狂。 - Luatic
谢谢!Pixel 4a相机应用在EOI之后添加了数据,所以我也将在EOI之后删除了EOF的检查。 - neclepsio
是的,我想去除它;我还发现0xFFE1中存在一个缩略图,我也打算去除。完成后,我将发布完整的代码。 - neclepsio
显示剩余2条评论

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接