我需要下载这些链接下的所有文件,每个链接只有区域名称不同。
这是一个参考链接: https://www.data.vic.gov.au/data/dataset/2014-town-and-community-profile-for-thornbury-suburb
这是搜索链接下的所有文件: https://www.data.vic.gov.au/data/dataset?q=2014+town+and+community+profile
有可能吗?
谢谢 :)
我需要下载这些链接下的所有文件,每个链接只有区域名称不同。
这是一个参考链接: https://www.data.vic.gov.au/data/dataset/2014-town-and-community-profile-for-thornbury-suburb
这是搜索链接下的所有文件: https://www.data.vic.gov.au/data/dataset?q=2014+town+and+community+profile
有可能吗?
谢谢 :)
您可以像这样下载文件
import urllib2
response = urllib2.urlopen('http://www.example.com/file_to_download')
html = response.read()
获取页面中的所有链接
from bs4 import BeautifulSoup
import requests
r = requests.get("http://site-to.crawl")
data = r.text
soup = BeautifulSoup(data)
for link in soup.find_all('a'):
print(link.get('href'))