Python tarfile如何输出进度？

Question

Python tarfile如何输出进度？

21

我正在使用以下代码来提取一个tar文件：

import tarfile
tar = tarfile.open("sample.tar.gz")
tar.extractall()
tar.close()

然而，我希望以目前正在提取哪些文件的形式掌握进展情况。我该如何做到这一点？

额外奖励分数：能否创建提取过程的百分比？我想将其用于tkinter更新进度条。谢谢！

- FLX

7个回答

7

你可以直接使用 tqdm() 函数并打印提取的文件数量的进度：

import tarfile
from tqdm import tqdm

# open your tar.gz file
with tarfile.open(name=path) as tar:

    # Go over each member
    for member in tqdm(iterable=tar.getmembers(), total=len(tar.getmembers())):

        # Extract member
        tar.extract(member=member)

- RoadRunner

7

你可以在extractall()中指定members参数。

with tarfile.open(<path>, 'r') as tarball:
   tarball.extractall(path=<some path>, members = track_progress(tarball))

def track_progress(members):
   for member in members:
      # this will be the current file being extracted
      yield member

member 是 TarInfo 对象，查看所有可用的函数和属性请点击此处

- mingxiao

3

在 yield member 后面，你可以打印出名称或更新进度条。 - Xiong Chiamiov

1

这似乎不应该起作用 - members 是 extractall 的输入，而不是输出？我有什么遗漏的吗？ - O'Rooney

@O'Rooney，我来晚了，但是没错。这就是为什么我们在那里使用yield的原因。默认情况下会使用简单的for循环，我们的重写意味着在提取过程中我们也可以访问成员列表，缺点是现在确保不漏掉任何成员的责任落在了我们身上。 - Yamirui

3

您可以使用 extract 替代 extractall - 这样您就能够在文件被提取时打印成员名称。要获取成员列表，您可以使用 getmembers。

这里可以找到一个文本进度条库：

http://code.google.com/p/python-progressbar/

Tkinter代码片段：

http://tkinter.unpythonic.net/wiki/ProgressBar

- miku

1

看代码中的“extractall”调用了“extract”，因此不应该有速度惩罚。 - tokland

文档注明：“extract()方法不能解决多个提取问题。在大多数情况下，您应该考虑使用extractall()方法。”但是，由于不知道这些提取问题是什么，我不敢轻易将“extract”替换为“extractall”。 - Xiong Chiamiov

2

这里有一个很棒的解决方案，可以覆盖tarfile模块并作为替代品使用，让您可以指定回调函数来更新。详情请参考：https://github.com/thomaspurchas/tarfile-Progress-Reporter/。

- user2276143

那个库离生产就绪还有很远的路要走，例如当没有传递进度函数时使用未分配的变量...将路径字符串传递给extractall会失败，因为它期望一个tarinfo（虽然两个选项都应该是可能的）。 - andsens

1

要查看当前正在提取的文件，以下方法适用：

import tarfile

print "Extracting the contents of sample.tar.gz:"
tar = tarfile.open("sample.tar.gz")

for member_info in tar.getmembers():
    print "- extracting: " + member_info.name
    tar.extract(member_info)

tar.close()

- Locotes

0

这是我使用的方法，无需猴子补丁或需要条目数量。

def iter_tar_files(f):
    total_bytes = os.stat(f).st_size
    with open(f, "rb") as file_obj,\
        tarfile.open(fileobj=file_obj, mode="r:gz") as tar:
        for member in tar.getmembers():
            f = tar.extractfile(member)
            if f is not None:
                content = f.read()
                yield member.path, content
            # This prints something like: 512/1024 = 50.00%
            print(f"{file_obj.tell()} / {total_bytes} = {file_obj.tell()/total_bytes*100:.2f}%")

- felixh

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- tokland · Accepted Answer

文件进度和全局进度：

import io
import os
import tarfile

def get_file_progress_file_object_class(on_progress):
    class FileProgressFileObject(tarfile.ExFileObject):
        def read(self, size, *args):
            on_progress(self.name, self.position, self.size)
            return tarfile.ExFileObject.read(self, size, *args)
    return FileProgressFileObject

class TestFileProgressFileObject(tarfile.ExFileObject):
    def read(self, size, *args):
        on_progress(self.name, self.position, self.size)
        return tarfile.ExFileObject.read(self, size, *args)

class ProgressFileObject(io.FileIO):
    def __init__(self, path, *args, **kwargs):
        self._total_size = os.path.getsize(path)
        io.FileIO.__init__(self, path, *args, **kwargs)

    def read(self, size):
        print("Overall process: %d of %d" %(self.tell(), self._total_size))
        return io.FileIO.read(self, size)

def on_progress(filename, position, total_size):
    print("%s: %d of %s" %(filename, position, total_size))

tarfile.TarFile.fileobject = get_file_progress_file_object_class(on_progress)
tar = tarfile.open(fileobj=ProgressFileObject("a.tgz"))
tar.extractall()
tar.close()