使用wget下载所有pdf文件

3

我有以下网站http://www.asd.com.tr。我想将所有PDF文件下载到一个目录中。我尝试了几个命令,但没有太大的成功。

$ wget --random-wait -r -l inf -nd -A pdf http://www.asd.com.tr/

只有四个PDF文件被下载了。请查看此链接,有数千个PDF可供下载:

例如,数百个文件位于以下文件夹中: 但我无法正确访问它们以查看和下载所有内容,在此子目录中有一些文件夹,http://www.asd.com.tr/Folders/,这些文件夹中有数千个PDF文件。
我尝试使用-m命令镜像网站,但也失败了。
还有其他建议吗?

我只是在尝试使用wget做一些示例,我是土耳其人,这个网站非常受欢迎.. 就这样,没有冒犯你的意思兄弟.. - eddie skywalker
1个回答

9

首先,确认网站的服务条款允许抓取。然后,一个解决方案是:

mech-dump --links 'http://domain.com' |
    grep pdf$ |
    sed 's/\s+/%20/g' |
    xargs -I% wget http://domain.com/%

mech-dump 命令是由 Perl 的模块 WWW::Mechanize 提供的(在 Debian 和类似的发行版中,可以通过 libwww-mechanize-perl 包安装)。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接