从谷歌云存储中流式传输gzip压缩文件

Question

从谷歌云存储中流式传输gzip压缩文件

pythongoogle-app-enginecsvgoogle-cloud-storage

3

我希望能够直接从Google Cloud Storage读取压缩文件，并使用Python csv包打开它们。本地文件的代码如下：

def reader(self):
    print "reading local compressed file: ", self._filename
    self._localfile = gzip.open(self._filename, 'rb')
    csvReader = csv.reader(self._localfile, delimiter=',', quotechar='"')
    return csvReader

我已经使用过几个GCS API（基于JSON，cloud.storage），但是它们似乎都不能提供我可以通过gzip流式传输的内容。此外，即使文件未压缩，我也无法打开该文件并将其提供给cv.reader（Iterator类型）。

我的压缩CSV文件约为500MB，而未压缩的文件则使用多达几GB的空间。我认为这不是一个好主意：1-在打开它们之前本地下载文件（除非我可以同时下载和计算）；或者2-在计算之前完全在内存中打开文件。

最后，我目前在本地机器上运行此代码，但最终，我将转移到AppEngine，因此它也必须在那里正常工作。

谢谢！

- user1066293

把你的文件分成多个部分怎么样？ - Raito

这已经是一个超过1TB的数据集的多个部分了。将其进一步分解似乎是一个不必要的想法。我正在尝试Alex Martelli的建议。 - user1066293

2个回答

4

所以，您在GCS上存储了gzip文件。您可以以类似流的方式处理存储在GCS上的数据。也就是说，您可以同时下载、解压缩和处理数据。这避免了

必须将未压缩的文件存储到磁盘上
必须等待下载完成后才能处理数据。

gzip文件有一个小的头部和尾部，主体是一个压缩流，由一系列块组成，每个块都可以单独解压缩。Python的zlib包可以帮助您实现这一点！

编辑： 这是一个示例代码，用于基于zlib分块逐步解压缩和分析zlib或gzip流：

import zlib
from collections import Counter


def stream(filename):
    with open(filename, "rb") as f:
        while True:
            chunk = f.read(1024)
            if not chunk:
                break
            yield chunk


def decompress(stream):
    # Generate decompression object. Auto-detect and ignore
    # gzip wrapper, if present.
    z = zlib.decompressobj(32+15)
    for chunk in stream:
        r = z.decompress(chunk)
        if r:
            yield r


c = Counter()
s = stream("data.gz")
for chunk in decompress(s):
    for byte in chunk:
        c[byte] += 1


print c

我用一个例子文件 data.gz 进行了代码测试，该文件是使用 GNU gzip 创建的。

引用来自http://www.zlib.net/manual.html：

windowBits 也可以大于 15，用于可选的 gzip 解压缩。将 windowBits 加上 32 可以启用 zlib 和 gzip 解码，并进行自动头部检测，或者加上 16 仅解码 gzip 格式（zlib 格式将返回 Z_DATA_ERROR）。如果正在解码 gzip 流，则 strm->adler 是一个 crc32，而不是 adler32。

并且

gzip 头中包含的任何信息都不会被保留[...]

- Dr. Jan-Philip Gehrcke

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Alex Martelli · Accepted Answer

使用 GCS，cloudstorage.open(filename, 'r') 将给您一个只读文件对象（之前同样使用 'w' 创建），您可以一次读取一部分，并使用标准的 Python 库中的 zlib 模块，特别是 zlib.decompressobj。当然，如果 GS 对象最初是以互补方式创建的（使用 zlib.compressobj）。

或者，为了方便，您可以使用标准的 Python 库中的 gzip 模块，例如在读取阶段使用以下代码：

compressed_flo = cloudstorage.open('objname', 'r')
uncompressed_flo = gzip.GzipFile(fileobj=compressed_flo,mode='rb')
csvReader = csv.reader(uncompressed_flo)

当然，对于早期的编写阶段也是反过来。

请注意，当您在本地运行（使用dev_appserver）时，GCS客户端库使用本地磁盘文件来模拟GCS--在我的经验中，这对于开发目的很有用，当我需要从我的本地工作站与“真正”的GCS存储交互时，我可以使用gsutil或其他工具... GCS是为了让我从我的GAE应用程序中进行此类交互（以及首先在本地开发该GAE应用程序:-)。