Python urllib2进度钩子

29

我正在尝试使用urllib2 http客户端在python中创建下载进度条。我查看了API(以及谷歌),似乎urllib2不允许您注册进度挂钩。然而,旧的废弃的urllib确实具有此功能。

有人知道如何使用urllib2创建进度条或报告挂钩吗?还是有其他方法来获得类似的功能?

5个回答

42

这里是一个完全可用的示例,基于Anurag的响应分块方法。我的版本允许您设置块大小,并附加任意报告函数:

import urllib2, sys

def chunk_report(bytes_so_far, chunk_size, total_size):
   percent = float(bytes_so_far) / total_size
   percent = round(percent*100, 2)
   sys.stdout.write("Downloaded %d of %d bytes (%0.2f%%)\r" % 
       (bytes_so_far, total_size, percent))

   if bytes_so_far >= total_size:
      sys.stdout.write('\n')

def chunk_read(response, chunk_size=8192, report_hook=None):
   total_size = response.info().getheader('Content-Length').strip()
   total_size = int(total_size)
   bytes_so_far = 0

   while 1:
      chunk = response.read(chunk_size)
      bytes_so_far += len(chunk)

      if not chunk:
         break

      if report_hook:
         report_hook(bytes_so_far, chunk_size, total_size)

   return bytes_so_far

if __name__ == '__main__':
   response = urllib2.urlopen('http://www.ebay.com');
   chunk_read(response, report_hook=chunk_report)

3
太好了,对于下载来说。那么有没有类似的东西可以用于上传呢?(例如:写入大量的帖子数据?) - speedplane
1
这个程序下载的文件被存放在哪里?我找不到它。 - Zac Brown
1
据我所知,这不是“保存”文件,而是打开一个URL。要保存文件,您需要执行file = open('myfile.html', 'wb'),然后执行file.write(response.read()) - styfle
2
注意,响应并不总是包含“Content-Length”头。这对于不支持它的服务器将会失败。 - Cerin
1
@styfle:实际上,它只是打开一个 URL 并“丢弃”它的字节。而response.read()则会毁掉定期进度报告的全部意义。 - MestreLion

12

为什么不只是按块读取数据,并在其中执行您想要执行的任何操作,例如在线程中运行、连接到用户界面等等?

import urllib2

urlfile = urllib2.urlopen("http://www.google.com")

data_list = []
chunk = 4096
while 1:
    data = urlfile.read(chunk)
    if not data:
        print "done."
        break
    data_list.append(data)
    print "Read %s bytes"%len(data)

输出:

Read 4096 bytes
Read 3113 bytes
done.

唯一的事情是,我认为最后一行应该是 _print "读取了 %s 个字节"%len(data_list)_。 - Zac Brown
@Zachary Brown,不是的,因为我只是每次打印读取了多少数据,虽然更好的做法是打印总共读取的数据,但仍然不会是len(data_list)。 - Anurag Uniyal

5

1

简化版本:

temp_filename = "/tmp/" + file_url.split('/')[-1]
f = open(temp_filename, 'wb')
remote_file = urllib2.urlopen(file_url)

try:
    total_size = remote_file.info().getheader('Content-Length').strip()
    header = True
except AttributeError:
    header = False # a response doesn't always include the "Content-Length" header

if header:
    total_size = int(total_size)

bytes_so_far = 0

while True:
    buffer = remote_file.read(8192)
    if not buffer:
        sys.stdout.write('\n')
        break

    bytes_so_far += len(buffer)
    f.write(buffer)
    if not header:
        total_size = bytes_so_far # unknown size

    percent = float(bytes_so_far) / total_size
    percent = round(percent*100, 2)
    sys.stdout.write("Downloaded %d of %d bytes (%0.2f%%)\r" % (bytes_so_far, total_size, percent))

0

对 Triptych 的回答进行小修改,以便实际写出文件(Python3):

from urllib.request import urlopen

def chunk_report(bytes_so_far, chunk_size, total_size):
    percent = float(bytes_so_far) / total_size
    percent = round(percent*100, 2)
    sys.stdout.write("Downloaded %d of %d bytes (%0.2f%%)\r" %
                     (bytes_so_far, total_size, percent))

    if bytes_so_far >= total_size:
        sys.stdout.write('\n')


def chunk_read(response, chunk_size=8192, report_hook=None):
    total_size = response.info().get("Content-Length").strip()
    total_size = int(total_size)
    bytes_so_far = 0
    data = b""

    while 1:
        chunk = response.read(chunk_size)
        bytes_so_far += len(chunk)

        if not chunk:
            break

        if report_hook:
            report_hook(bytes_so_far, chunk_size, total_size)

        data += chunk

    return data

使用方法:

with open(out_path, "wb") as f:
    response = urlopen(filepath)
    data_read = chunk_read(response, report_hook=chunk_report)

    f.write(data_read)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接