从网站下载所有.pdf文件的Python/Java脚本

12

我想知道是否有可能编写一个脚本,能够自动地遍历网页并下载所有的 .pdf 文件链接。在我开始尝试之前,我想知道这是否可行。

谢谢!


2
那绝对是可能的。 - qqilihq
5个回答

9
是的,这是可能的。 要下载PDF文件,您甚至不需要使用Beautiful Soup或Scrapy。
从Python中进行下载非常简单 构建所有linkpdf链接的列表并下载它们
如何构建链接列表的参考: http://www.pythonforbeginners.com/code/regular-expression-re-findall 如果您需要爬行多个链接页面,则可能需要使用其中一个框架 如果您愿意构建自己的爬虫,则可以使用这个很棒的教程,顺便说一下,这也是Python的良好入门。 https://www.udacity.com/course/viewer#!/c-cs101

7

是的,这是可能的。

在Python中,它很简单; urllib 将帮助您从网络下载文件。 例如:

import urllib
urllib.url_retrive("http://example.com/helo.pdf","c://home")

现在您需要编写一个脚本,以查找以 .pdf 结尾的链接。

示例 HTML 页面: 这是一个链接

您需要下载 HTML 页面并使用 HTML 解析器或正则表达式。


链接已损坏。 - elachell

4
是的,这是可能的。这被称为网络爬虫。对于Python来说,有各种包可以帮助实现,包括scrapy、beautifulsoup、mechanize等等。

1


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接