7z文件的随机访问

Question

7z文件的随机访问

pythoncompressionlarge-files7ziprandom-access

3

我有一个被压缩为7z格式的100GB文本文件。我可以通过以1MB块的方式读取（7z将数据输出到stdout）来查找其中的模式'hello'：

Popen("7z e -so archive.7z big100gb_file.txt", stdout=PIPE)
while True:
    block = proc.stdout.read(1024*1024)    # 1 MB block
    i += 1
    ...
    if b'hello' in block:      # omitting other details for search pattern split in consecutive blocks...
        print('pattern found in block %i' % i)
    ...

现在我们已经找到了模式'hello'，假设它在第23456个块中，在7z文件内如何快速访问这个块或行？

（如果可能的话，不要将此数据保存在另一个文件/索引中）

使用7z，如何在文件中间进行查找？

注意：我已经阅读了Indexing / random access to 7zip .7z archives和random seek in 7z single file archive，但这些问题没有讨论具体实现。

- Basj

@TDG，一个.7z文件肯定有头部和文件表格在文件末尾，所以我几乎可以确定我们不能像这样简单地在中间寻找。 - Basj

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Mark Adler · Accepted Answer

原则上，可以构建一个索引来压缩数据。您可以选择一个未压缩数据的块大小，其中每个块的开头将是一个入口点，您可以从这里开始解压缩。索引将是单独的文件或大型内存结构，您需要构建整个解压缩状态的每个入口点。您需要一次性解压缩所有压缩数据以构建索引。块大小的选择将是希望快速访问压缩数据中任何给定字节与索引大小之间的平衡。

7z可以使用几种不同的压缩方法（deflate，lzma2，bzip2，ppmd）。要实现此类随机访问，对于每种方法，您需要完全不同的操作。

此外，对于每种方法，选择入口点的更好位置比某些固定的未压缩块大小更好。这样的选择将大大减小索引的大小，利用了该方法使用的压缩数据的内部结构。

例如，bzip2在每个bzip2块中都有没有历史记录的自然入口点，默认情况下每个块具有900 KiB的未压缩数据。这使得索引可以非常小，只需要保存压缩和未压缩偏移量即可。

对于deflate压缩，入口点可以是deflate块，在该块中，索引为所选deflate块的压缩和未压缩偏移量，并且每个入口点都有32K字典。 zran.c实现了这种用于deflate压缩数据的索引。

在lzma2或ppmd压缩流中的任何点上，解压状态都非常大。我认为这样的随机访问方法对于这些压缩方法来说可能不切实际。压缩数据格式需要在压缩时被修改，以将其分成块，但这会损失一定的压缩比率。