使用wget下载所有pdf文件

Question

3

我有以下网站http://www.asd.com.tr。我想将所有PDF文件下载到一个目录中。我尝试了几个命令，但没有太大的成功。

$ wget --random-wait -r -l inf -nd -A pdf http://www.asd.com.tr/

只有四个PDF文件被下载了。请查看此链接，有数千个PDF可供下载：

例如，数百个文件位于以下文件夹中：

但我无法正确访问它们以查看和下载所有内容，在此子目录中有一些文件夹，http://www.asd.com.tr/Folders/，这些文件夹中有数千个PDF文件。

我尝试使用-m命令镜像网站，但也失败了。

还有其他建议吗？

- eddie skywalker

我只是在尝试使用wget做一些示例，我是土耳其人，这个网站非常受欢迎.. 就这样，没有冒犯你的意思兄弟.. - eddie skywalker

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Gilles Quénot · Accepted Answer

首先，确认网站的服务条款允许抓取。然后，一个解决方案是：

mech-dump --links 'http://domain.com' |
    grep pdf$ |
    sed 's/\s+/%20/g' |
    xargs -I% wget http://domain.com/%

mech-dump 命令是由 Perl 的模块 WWW::Mechanize 提供的（在 Debian 和类似的发行版中，可以通过 libwww-mechanize-perl 包安装）。