如何基于文件头来识别doc、docx、pdf、xls和xlsx文件

20
如何基于文件头在C#中识别doc,docx,pdf,xls和xlsx? 我不想依赖文件扩展名或MimeMapping.GetMimeMapping进行此操作,因为两者都可能被篡改。
我知道如何读取文件头,但不知道哪些字节组合可以确定文件是否为doc,docx,pdf,xls或xlsx。 有什么想法吗?

我知道如何读取头文件 - 如果你对所有这些格式都了解,那么你已经能够区分它们。如果不是,那么这就是你该做的:阅读每种格式的规范,构建能够单独识别每种类型的东西,将它们组合成一个解决方案。 - Sinatr
请查看此帖子:https://dev59.com/tXVD5IYBdhLWcg3wL4iM,我将在答案部分发布相关内容。 - Alex
5
Sinatra的惊人傲慢回复 - lekso
4个回答

12
这个问题包含了使用文件的前几个字节确定文件类型的示例:Using .NET, how can you find the mime type of a file based on the file signature not the extension
这是一个非常长的帖子,因此我会在下面发布相关的答案:
public class MimeType
{
    private static readonly byte[] BMP = { 66, 77 };
    private static readonly byte[] DOC = { 208, 207, 17, 224, 161, 177, 26, 225 };
    private static readonly byte[] EXE_DLL = { 77, 90 };
    private static readonly byte[] GIF = { 71, 73, 70, 56 };
    private static readonly byte[] ICO = { 0, 0, 1, 0 };
    private static readonly byte[] JPG = { 255, 216, 255 };
    private static readonly byte[] MP3 = { 255, 251, 48 };
    private static readonly byte[] OGG = { 79, 103, 103, 83, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0 };
    private static readonly byte[] PDF = { 37, 80, 68, 70, 45, 49, 46 };
    private static readonly byte[] PNG = { 137, 80, 78, 71, 13, 10, 26, 10, 0, 0, 0, 13, 73, 72, 68, 82 };
    private static readonly byte[] RAR = { 82, 97, 114, 33, 26, 7, 0 };
    private static readonly byte[] SWF = { 70, 87, 83 };
    private static readonly byte[] TIFF = { 73, 73, 42, 0 };
    private static readonly byte[] TORRENT = { 100, 56, 58, 97, 110, 110, 111, 117, 110, 99, 101 };
    private static readonly byte[] TTF = { 0, 1, 0, 0, 0 };
    private static readonly byte[] WAV_AVI = { 82, 73, 70, 70 };
    private static readonly byte[] WMV_WMA = { 48, 38, 178, 117, 142, 102, 207, 17, 166, 217, 0, 170, 0, 98, 206, 108 };
    private static readonly byte[] ZIP_DOCX = { 80, 75, 3, 4 };

    public static string GetMimeType(byte[] file, string fileName)
    {

        string mime = "application/octet-stream"; //DEFAULT UNKNOWN MIME TYPE

        //Ensure that the filename isn't empty or null
        if (string.IsNullOrWhiteSpace(fileName))
        {
            return mime;
        }

        //Get the file extension
        string extension = Path.GetExtension(fileName) == null
                               ? string.Empty
                               : Path.GetExtension(fileName).ToUpper();

        //Get the MIME Type
        if (file.Take(2).SequenceEqual(BMP))
        {
            mime = "image/bmp";
        }
        else if (file.Take(8).SequenceEqual(DOC))
        {
            mime = "application/msword";
        }
        else if (file.Take(2).SequenceEqual(EXE_DLL))
        {
            mime = "application/x-msdownload"; //both use same mime type
        }
        else if (file.Take(4).SequenceEqual(GIF))
        {
            mime = "image/gif";
        }
        else if (file.Take(4).SequenceEqual(ICO))
        {
            mime = "image/x-icon";
        }
        else if (file.Take(3).SequenceEqual(JPG))
        {
            mime = "image/jpeg";
        }
        else if (file.Take(3).SequenceEqual(MP3))
        {
            mime = "audio/mpeg";
        }
        else if (file.Take(14).SequenceEqual(OGG))
        {
            if (extension == ".OGX")
            {
                mime = "application/ogg";
            }
            else if (extension == ".OGA")
            {
                mime = "audio/ogg";
            }
            else
            {
                mime = "video/ogg";
            }
        }
        else if (file.Take(7).SequenceEqual(PDF))
        {
            mime = "application/pdf";
        }
        else if (file.Take(16).SequenceEqual(PNG))
        {
            mime = "image/png";
        }
        else if (file.Take(7).SequenceEqual(RAR))
        {
            mime = "application/x-rar-compressed";
        }
        else if (file.Take(3).SequenceEqual(SWF))
        {
            mime = "application/x-shockwave-flash";
        }
        else if (file.Take(4).SequenceEqual(TIFF))
        {
            mime = "image/tiff";
        }
        else if (file.Take(11).SequenceEqual(TORRENT))
        {
            mime = "application/x-bittorrent";
        }
        else if (file.Take(5).SequenceEqual(TTF))
        {
            mime = "application/x-font-ttf";
        }
        else if (file.Take(4).SequenceEqual(WAV_AVI))
        {
            mime = extension == ".AVI" ? "video/x-msvideo" : "audio/x-wav";
        }
        else if (file.Take(16).SequenceEqual(WMV_WMA))
        {
            mime = extension == ".WMA" ? "audio/x-ms-wma" : "video/x-ms-wmv";
        }
        else if (file.Take(4).SequenceEqual(ZIP_DOCX))
        {
            mime = extension == ".DOCX" ? "application/vnd.openxmlformats-officedocument.wordprocessingml.document" : "application/x-zip-compressed";
        }

        return mime;
    }

1
总体来说还不错,但是如果将文件(例如JavaFile.jar或ExcelFile.xlsx)重命名为不同的文件扩展名(如JavaFile.docx或ExcelFile.docx),这样会不会被欺骗呢?也许这超出了这个问题的范围,但OP似乎不想依赖文件扩展名(可能根本不想)。是否有更好的基于ZIP的文件类型检测方法? - Tophandour
我会进行调查,这需要在解压缩后对文件进行第二步检查。 - Alex
实际上,我刚刚对一些知名且广泛使用的软件进行了一些测试,似乎并不常见检查文件的详细信息(指我的先前评论)。我想,如果必须这样做,您可以将文件打开,就像它是一个zip文件,并浏览其中的目录,检查目录名称和文件类型以确保一切都符合您的期望。然而,我相信一个专业且有知识的人仍然可以制作出一些东西来欺骗您提出的任何解决方案。嗯,我想这是递减收益。 - Tophandour
1
如上所述,这并没有回答问题,因为在使用它与doc、xls或ppt文件时会返回相同的MIME类型,同时docx、xlsx和pptx也返回相同的类型。 - Juan Zamudio
你好!在Java中,DOC类型的字节序列是什么?谢谢。 - tom

11
使用文件签名并不是很可行(因为新的Office格式是ZIP文件,而旧的Office文件是OLE CF / OLE SS容器),但您可以使用C#代码来读取它们并找出它们是什么。
对于最新的Office格式,您可以使用System.IO.Packaging读取(DOCX/PPTX/XLSX/...)ZIP文件: https://msdn.microsoft.com/en-us/library/ms568187(v=vs.110).aspx 这样做,您可以找到第一个文档部分的ContentType并进行推断。
对于旧版本的Office文件(Office 2003),您可以使用此库根据其内容来区分它们(请注意,MSI和MSG文件也使用此文件格式): http://sourceforge.net/projects/openmcdf/ 例如,这是XLS文件的内容: XLS file internals 我希望这能有所帮助! :)
如果我早点找到这个答案,那肯定会对我有所帮助。;)

1
在Office Open XML格式(DOCX、XLSX、PPTX文件的ZIP存档)中,特殊的文件称为“mimetype”,其中包含MIME类型字符串,始终是ZIP中的第一个条目,并且未经压缩或加密。这意味着MIME类型字符串存储在ZIP文件中的固定偏移量处,可以直接使用魔术字节读取,而无需解压缩文件。 - StanE

7

鉴于OP特别提到了Office文件格式,用户2173353的回答是最正确的。然而,我不喜欢添加整个库(OpenMCDF)仅用于识别传统的Office格式,所以我编写了自己的程序来完成这个任务。

    public static CfbFileFormat GetCfbFileFormat(Stream fileData)
    {
        if (!fileData.CanSeek)
            throw new ArgumentException("Data stream must be seekable.", nameof(fileData));

        try
        {
            // Notice that values in a CFB files are always little-endian. Fortunately BinaryReader.ReadUInt16/ReadUInt32 reads with little-endian.
            // If using .net < 4.5 this BinaryReader constructor is not available. Use a simpler one but remember to also remove the 'using' statement.
            using (BinaryReader reader = new BinaryReader(fileData, Encoding.Unicode, true))
            {
                // Check that data has the CFB file header
                var header = reader.ReadBytes(8);
                if (!header.SequenceEqual(new byte[] {0xD0, 0xCF, 0x11, 0xE0, 0xA1, 0xB1, 0x1A, 0xE1}))
                    return CfbFileFormat.Unknown;

                // Get sector size (2 byte uint) at offset 30 in the header
                // Value at 1C specifies this as the power of two. The only valid values are 9 or 12, which gives 512 or 4096 byte sector size.
                fileData.Position = 30;
                ushort readUInt16 = reader.ReadUInt16();
                int sectorSize = 1 << readUInt16;

                // Get first directory sector index at offset 48 in the header
                fileData.Position = 48;
                var rootDirectoryIndex = reader.ReadUInt32();

                // File header is one sector wide. After that we can address the sector directly using the sector index
                var rootDirectoryAddress = sectorSize + (rootDirectoryIndex * sectorSize);

                // Object type field is offset 80 bytes into the directory sector. It is a 128 bit GUID, encoded as "DWORD, WORD, WORD, BYTE[8]".
                fileData.Position = rootDirectoryAddress + 80;
                var bits127_96 = reader.ReadInt32();
                var bits95_80 = reader.ReadInt16();
                var bits79_64 = reader.ReadInt16();
                var bits63_0 = reader.ReadBytes(8);

                var guid = new Guid(bits127_96, bits95_80, bits79_64, bits63_0);

                // Compare to known file format GUIDs

                CfbFileFormat result;
                return Formats.TryGetValue(guid, out result) ? result : CfbFileFormat.Unknown;
            }
        }
        catch (IOException)
        {
            return CfbFileFormat.Unknown;
        }
        catch (OverflowException)
        {
            return CfbFileFormat.Unknown;
        }
    }

    public enum CfbFileFormat
    {
        Doc,
        Xls,
        Msi,
        Ppt,
        Unknown
    }

    private static readonly Dictionary<Guid, CfbFileFormat> Formats = new Dictionary<Guid, CfbFileFormat>
    {
        {Guid.Parse("{00020810-0000-0000-c000-000000000046}"), CfbFileFormat.Xls},
        {Guid.Parse("{00020820-0000-0000-c000-000000000046}"), CfbFileFormat.Xls},
        {Guid.Parse("{00020906-0000-0000-c000-000000000046}"), CfbFileFormat.Doc},
        {Guid.Parse("{000c1084-0000-0000-c000-000000000046}"), CfbFileFormat.Msi},
        {Guid.Parse("{64818d10-4f9b-11cf-86ea-00aa00b929e8}"), CfbFileFormat.Ppt}
    };

如有需要,可以添加其他格式标识符。

我已经在 .doc 和 .xls 上试过了,都可以正常工作。但是我没有测试过在使用 4096 字节扇区大小的 CFB 文件上的情况,因为我甚至不知道在哪里找到这些文件。

代码基于以下文档中的信息:


3

user2173353提供了检测新Office .docx / .xlsx格式的正确解决方案。 为了详细说明,以下检查似乎可以正确识别这些格式:

    /// <summary>
    /// MS .docx, .xslx and other extensions are (correctly) identified as zip files using signature lookup.
    /// This tests if System.IO.Packaging is able to open, and if package has parts, this is not a zip file.
    /// </summary>
    /// <param name="stream"></param>
    /// <returns></returns>
    private static bool IsPackage(this Stream stream)
    {
        Package package = Package.Open(stream, FileMode.Open, FileAccess.Read);
        return package.GetParts().Any();
    }

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接