下载网站中的所有文件。

Question

下载网站中的所有文件。

pythonrdownloadwebclient

11

我需要下载这些链接下的所有文件，每个链接只有区域名称不同。

这是一个参考链接： https://www.data.vic.gov.au/data/dataset/2014-town-and-community-profile-for-thornbury-suburb

这是搜索链接下的所有文件： https://www.data.vic.gov.au/data/dataset?q=2014+town+and+community+profile

有可能吗？

谢谢 :)

- Bharath

3

我建议编写一些代码来实现这个。 - Ofer Sadan

2个回答

0

你应该先阅读 HTML，使用 Beautiful Soup 进行解析，然后根据所需下载的文件类型查找链接。例如，如果您想下载所有 PDF 文件，可以检查链接是否以 .pdf 扩展名结尾。

这里有一个很好的解释和可用的代码：

https://medium.com/@dementorwriter/notesdownloader-use-web-scraping-to-download-all-pdfs-with-python-511ea9f55e48

- x89

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- naren · Accepted Answer

您可以像这样下载文件

import urllib2
response = urllib2.urlopen('http://www.example.com/file_to_download')
html = response.read()

获取页面中的所有链接

from bs4 import BeautifulSoup

import requests
r  = requests.get("http://site-to.crawl")
data = r.text
soup = BeautifulSoup(data)

for link in soup.find_all('a'):
    print(link.get('href'))