使用JPEG压缩的TIFF文件比原始JPEG文件要大得多。

5
我正在尝试使用FreeImage.Net和C#将JPEG转换为带有JPEG压缩的TIFF。这个过程很顺利,但对于低质量的JPEG来说,TIFF文件比原始文件大得多。我认为TIFF大小不取决于原始JPEG质量,因为输出图像的大小总是大致相同。
例如(转换截图):
2065kb JPEG (quality: 100%) --> 1282kb TIFF
 379kb JPEG (quality:  50%) --> 1200kb TIFF

我们公司不接受文件尺寸增加,因为我们和客户处理的文档数量很多。

有趣的是,当我使用GIMP转换图像时,结果差不多。现在我想知道:这是符合TIFF标准还是特殊于FreeImage/GIMP?(我认为两者都使用libtiff.dll)。

我想还有其他方法,因为我们公司有一台扫描仪,可以生成文件大小更小的JPEG压缩的TIFF图像。 有没有人知道其他库(免费或付费),可以更有效地处理此转换,或在FreeImage中实现此功能?

更新:

我查看了TIFF 6.0规范,分析了我们扫描仪生成的文件,并编写了一个函数,将JPEG包装到非常简单的TIFF容器中(也适用于多个合并为多页TIFF的JPEG)。

对于那些了解TIFF的人:我生成了一个新的TIFF文件(根据图像/页面数量生成一个或多个IFD),并将现有JPEG图像的原始数据写入单个条带中(每个IFD),使用以下字段/条目:

NewSubfileType = 0
ImageWidth = //(width of the original JPEG)
ImageLength = //(height of the original JPEG)
BitsPerSample = {8, 8, 8} //(count: 3)
Compression = 7 //(JPEG)
PhotometricInterpretation = 6 //(YCbCr)
StripOffsets = //(offset of raw JPEG data, count: 1)
SamplesPerPixel = 3
RowsPerStrip = //(height of the original JPEG)
StripByteCounts = //(length of raw JPEG data, count: 1)
XResolution = //(horizontal resolution of original JPEG data)
YResolution = //(vertical resolution of original JPEG data)
PlanarConfiguration = 1 (chunky)
ResolutionUnit = 2 //(Inch)

为了获取原始图像的信息,我使用了FreeImage,但是任何其他图像库也应该可以工作。
我知道可能还有一些我不知道的陷阱。它可能无法处理任何JPEG文件。此外,我不确定为什么我必须使用PhotometricInterpretation = 6和PlanarConfiguration = 1或其他一些字段的值。然而,它能够正常工作。
我想我的问题在于其他库会产生一个全新的JPEG文件,并且总是具有相同的质量(因为您只能将TIFF压缩设置为JPEG,但不能指定任何进一步的选项),然后将其包装到TIFF容器中。
我现在也知道,在TIFF中进行JPEG压缩并不是最好的选择(它是有损的,不常见且很少受支持,除了JPEG压缩的TIFF不比普通JPEG文件更好)。然而,我们的客户要求这样做。让我们看看上面的解决方案是否合适,或者我是否能找到其他东西。

这是图像处理中的“天下没有免费的午餐”原则。您必须关闭尝试拯救低质量JPEG图像的插值器。相应的.NET属性是Graphics.InterpolationMode。 - Hans Passant
@HansPassant 这听起来很有希望。如果在转换过程中确实进行了插值,这将解释结果 tiffs 的大小大致相等。然而,到目前为止我还没有找到关闭它的方法。我想问题可能是,FreeImage(或其他库)将图像作为像素矩阵加载,然后在将其保存为 tiff 时再次使用 jpeg 压缩进行压缩,而不是直接将原始文件嵌入 tiff 容器中。后者是我想要做的事情。 - marsze
1个回答

4

JPEG压缩的支持并不是很好。如果一个库包括这种压缩类型,那么设置(如JPEG质量)通常是固定的,并且原始图像很可能被重新压缩。然而,我找到了一种方法,可以将原始的JPEG包装在简单的TIFF容器中(--> 请参见我原来问题中的更新)。

请记住:这种方法可能无法适用于所有的JPEG文件!例如,FreeImage无法读取一个包装的渐进式 JPEG。

以下是我使用的C#代码:

using System;
using System.Collections.Generic;
using System.IO;
using FreeImageAPI;

namespace Tiff
{
    static class TiffConverter
    {
        /// <summary>
        /// <para>Wraps a list of JPEG images into a simple multi-page TIFF container.</para>
        /// <para>(Might not work with all JPEG formats.)</para>
        /// </summary>
        /// <param name="jpegs">The JPEG-image to convert</param>
        /// <returns></returns>
        public static byte[] WrapJpegs(List<byte[]> jpegs)
        {
            if (jpegs == null || jpegs.Count == 0 || jpegs.FindIndex(b => b.Length == 0) > -1)
                throw new ArgumentNullException("Image data must not be null or empty");

            MemoryStream tiffData = new MemoryStream();
            BinaryWriter writer = new BinaryWriter(tiffData);
            uint offset = 8; // size of header, offset to IFD
            ushort entryCount = 14; // entries per IFD

            #region IFH - Image file header

            // magic number
            if (BitConverter.IsLittleEndian)
                writer.Write(0x002A4949);
            else
                writer.Write(0x4D4D002A);

            // offset to (first) IFD
            writer.Write(offset);

            #endregion IFH

            #region IFD Image file directory

            // write image file directories for each jpeg
            for (int i = 0; offset > 0; i++)
            {
                // get data from jpeg with FreeImage
                FreeImageBitmap jpegImage;
                try
                {
                    jpegImage = new FreeImageBitmap(new MemoryStream(jpegs[i]));
                }
                catch (Exception ex)
                {
                    throw new Exception("Could not load image data at index " + i, ex);
                }
                if (jpegImage.ImageFormat != FREE_IMAGE_FORMAT.FIF_JPEG)
                    throw new ArgumentException("Image data at index " + i + " is not in JPEG format");

                // dta to write in tags
                uint width = (uint)jpegImage.Width;
                uint length = (uint)jpegImage.Height;
                uint xres = (uint)jpegImage.HorizontalResolution;
                uint yres = (uint)jpegImage.VerticalResolution;

                // count of entries:
                writer.Write(entryCount);

                offset += 6 + 12 * (uint)entryCount; // add lengths of entries, entry-count and next-ifd-offset

                // TIFF-fields / IFD-entrys:
                // {TAG, TYPE (3 = short, 4 = long, 5 = rational), COUNT, VALUE/OFFSET}
                uint[,] fields = new uint[,] { 
                    {254, 4, 1, 0}, // NewSubfileType
                    {256, 4, 1, width}, // ImageWidth
                    {257, 4, 1, length}, // ImageLength
                    {258, 3, 3, offset}, // BitsPerSample
                    {259, 3, 1, 7}, // Compression (new JPEG)
                    {262, 3, 1, 6}, //PhotometricInterpretation (YCbCr)
                    {273, 4, 1, offset + 22}, // StripOffsets (offset IFH + entries + values of BitsPerSample & YResolution & XResolution)
                    {277, 3, 1, 3}, // SamplesPerPixel
                    {278, 4, 1, length}, // RowsPerStrip
                    {279, 4, 1, (uint)jpegs[i].LongLength}, // StripByteCounts
                    {282, 5, 1, offset + 6}, // XResolution (offset IFH + entries + values of BitsPerSample)
                    {283, 5, 1, offset + 14}, // YResolution (offset IFH + entries + values of BitsPerSample & YResolution)
                    {284, 3, 1, 1}, // PlanarConfiguration (chunky)
                    {296, 3, 1, 2} // ResolutionUnit
                };

                // write fields
                for (int f = 0; f < fields.GetLength(0); f++)
                {
                    writer.Write((ushort)fields[f, 0]);
                    writer.Write((ushort)fields[f, 1]);
                    writer.Write(fields[f, 2]);
                    writer.Write(fields[f, 3]);
                }

                // offset of next IFD
                if (i == jpegs.Count - 1)
                    offset = 0;
                else
                    offset += 22 + (uint)jpegs[i].LongLength; // add values (of fields) length and jpeg length
                writer.Write(offset);

                #region values of fields

                // BitsPerSample
                writer.Write((ushort)8);
                writer.Write((ushort)8);
                writer.Write((ushort)8);

                // XResolution
                writer.Write(xres);
                writer.Write(1);

                // YResolution
                writer.Write(yres);
                writer.Write(1);

                #endregion values of fields

                // actual image data
                writer.Write(jpegs[i]);
            }
            #endregion IFD

            writer.Close();
            return tiffData.ToArray();
        }
    }
}

我在我的程序中使用它,效果很好。你能解释一下为什么x和y分辨率的值是这样的吗? - geometrikal
@geometrikal 当编写TIFF头时,对于超过一定大小的字段类型(在本例中为x/y分辨率),您只需写入指向文件中实际值存储位置的偏移量。正如您可以在代码下面进一步看到的那样,在编写头之后,将写入xres/yres的值。这有帮助吗? - marsze
谢谢。我正在排查用这段代码创建的TIFF图像在ImageMagick中无法打开的原因(但我仍然可以在Python和其他一些应用程序中读取它),因此试图理解它。结果发现我编码为JPEG的其中一个帧来自灰度位图。在编码之前将位图的颜色空间转换为BGR即可解决问题。再次感谢您提供这段代码,它为我们节省了很多网络驱动器上的空间。 :) - geometrikal
@geometrikal 不用谢。这是高度实验性的。部分基于tiff规范,部分只是试错。所以如果还有很多需要修复的地方,我也不感到惊讶。 - marsze
1
TIFF规范中关于JPEG(https://www.awaresystems.be/imaging/tiff/specification/TIFFTechNote2.txt)的说明称“不支持渐进和分层处理”,这可能是为什么FreeImage无法读取它的原因。 - Yay295

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接