我需要与一个要求发送至其数据使用Deflate算法(Huffman编码+LZ77)进行压缩并且发送我需要解压缩的数据的服务器进行交互。
我知道Python包含Zlib,并且Zlib中的C库支持调用解压缩和压缩,但这些显然不由Python的Zlib模块提供。它提供压缩和解压缩,但是当我执行以下调用时:
result_data = zlib.decompress( base64_decoded_compressed_string )
我收到了以下错误:
Error -3 while decompressing data: incorrect header check
Gzip并没有提高性能;当执行以下调用时:
result_data = gzip.GzipFile( fileobj = StringIO.StringIO( base64_decoded_compressed_string ) ).read()
我收到了以下错误:
IOError: Not a gzipped file
由于数据是一个 Deflated 文件而不是真正的 Gzipped 文件,这是有道理的。
现在我知道有一个可用的 Deflate 实现(Pyflate),但我不知道有一个 Inflate 实现。
似乎有几个选项:
- 在 Python 中查找现有的 Inflate 和 Deflate 实现(最理想)
- 编写自己的 Python 扩展,使用 zlib c 库包括 Inflate 和 Deflate
- 调用其他可以从命令行执行的东西(例如 Ruby 脚本,因为在 Ruby 中完全包装了 zlib 中的 Inflate/Deflate 调用)
- ?
我正在寻找一个解决方案,但如果没有解决方案,我将感谢见解、建设性意见和想法。
附加信息: 对字符串执行压缩(和编码)的结果应该与以下 C# 代码片段的结果相同,其中输入参数是与要压缩的数据对应的 UTF 字节数组:
public static string DeflateAndEncodeBase64(byte[] data)
{
if (null == data || data.Length < 1) return null;
string compressedBase64 = "";
//write into a new memory stream wrapped by a deflate stream
using (MemoryStream ms = new MemoryStream())
{
using (DeflateStream deflateStream = new DeflateStream(ms, CompressionMode.Compress, true))
{
//write byte buffer into memorystream
deflateStream.Write(data, 0, data.Length);
deflateStream.Close();
//rewind memory stream and write to base 64 string
byte[] compressedBytes = new byte[ms.Length];
ms.Seek(0, SeekOrigin.Begin);
ms.Read(compressedBytes, 0, (int)ms.Length);
compressedBase64 = Convert.ToBase64String(compressedBytes);
}
}
return compressedBase64;
}
将这段 .NET 代码运行于字符串 "deflate and encode me",结果为:
7b0HYBxJliUmL23Ke39K9UrX4HShCIBgEyTYkEAQ7MGIzeaS7B1pRyMpqyqBymVWZV1mFkDM7Z28995777333nvvvfe6O51OJ/ff/z9cZmQBbPbOStrJniGAqsgfP358Hz8iZvl5mbV5mi1nab6cVrM8XeT/Dw==
通过Python Zlib.compress()压缩再进行Base64编码的"deflate and encode me"结果为"eJxLSU3LSSxJVUjMS1FIzUvOT0lVyE0FAFXHB6k="。很明显,zlib.compress()不是与标准的Deflate算法实现相同的算法。
更多信息:
在b64解码后,.NET deflate数据(“7b0HY…”)的前2个字节为0xEDBD,这与Gzip数据(0x1f8b)、BZip2(0x425A)数据或Zlib(0x789C)数据不符。
在b64解码后,Python压缩数据的前两个字节(“eJxLS…”)为0x789C。这是Zlib标头。
已解决
要处理未包含标头和校验和的原始Deflate和Inflate,请执行以下操作:
进行压缩/压缩时:剥去前两个字节(标头)和最后四个字节(校验和)。
在解压缩/解压缩时:有一个第二个参数用于窗口大小。如果该值为负,则会抑制标头。以下是我目前的方法,包括Base64编码/解码,并正常工作:
import zlib
import base64
def decode_base64_and_inflate( b64string ):
decoded_data = base64.b64decode( b64string )
return zlib.decompress( decoded_data , -15)
def deflate_and_base64_encode( string_val ):
zlibbed_str = zlib.compress( string_val )
compressed_string = zlibbed_str[2:-4]
return base64.b64encode( compressed_string )