我想知道是否有可能编写一个脚本,能够自动地遍历网页并下载所有的 .pdf 文件链接。在我开始尝试之前,我想知道这是否可行。
谢谢!
是的,这是可能的。
在Python中,它很简单;
urllib
将帮助您从网络下载文件。
例如:
import urllib
urllib.url_retrive("http://example.com/helo.pdf","c://home")
现在您需要编写一个脚本,以查找以 .pdf 结尾的链接。
示例 HTML 页面: 这是一个链接
您需要下载 HTML 页面并使用 HTML 解析器或正则表达式。
urllib
下载文件。例如:import urllib
urllib.urlretrieve("http://...","file_name.pdf")
查找以.pdf结尾的链接的示例脚本: https://github.com/laxmanverma/Scripts/blob/master/samplePaperParser/DownloadSamplePapers.py
在Python中是可以做到的。您可以获取HTML源代码,使用BeautifulSoup解析它,然后找到所有的标签。接下来,您可以检查以.pdf扩展名结尾的链接。一旦您拥有了所有pdf链接的列表,就可以使用相应的方法进行下载。
wget.download(link)
requests
可以在此处找到详细的解释和完整的源代码:
https://medium.com/@dementorwriter/notesdownloader-use-web-scraping-to-download-all-pdfs-with-python-511ea9f55e48