从网站下载所有.pdf文件的Python/Java脚本

Question

12

我想知道是否有可能编写一个脚本，能够自动地遍历网页并下载所有的 .pdf 文件链接。在我开始尝试之前，我想知道这是否可行。

谢谢！

- sudobangbang

2

那绝对是可能的。 - qqilihq

5个回答

7

是的，这是可能的。

在Python中，它很简单; urllib 将帮助您从网络下载文件。例如:

import urllib
urllib.url_retrive("http://example.com/helo.pdf","c://home")

现在您需要编写一个脚本，以查找以 .pdf 结尾的链接。

示例 HTML 页面：这是一个链接

您需要下载 HTML 页面并使用 HTML 解析器或正则表达式。

- aovbros

链接已损坏。 - elachell

4

是的，这是可能的。这被称为网络爬虫。对于Python来说，有各种包可以帮助实现，包括scrapy、beautifulsoup、mechanize等等。

- Will

1

使用 urllib 下载文件。例如：

import urllib

urllib.urlretrieve("http://...","file_name.pdf")

- Laxman

1

wget.download(link)

- x89

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- kender99 · Accepted Answer

是的，这是可能的。要下载PDF文件，您甚至不需要使用Beautiful Soup或Scrapy。

从Python中进行下载非常简单构建所有linkpdf链接的列表并下载它们

如何构建链接列表的参考： http://www.pythonforbeginners.com/code/regular-expression-re-findall 如果您需要爬行多个链接页面，则可能需要使用其中一个框架如果您愿意构建自己的爬虫，则可以使用这个很棒的教程，顺便说一下，这也是Python的良好入门。 https://www.udacity.com/course/viewer#!/c-cs101