我可以让wget仅检索单个文件夹(及其子文件夹),但也保存并重新链接外部图片吗?

3

我正在尝试下载www.idea.int网站中的/publications/文件夹,以便在离线情况下将其放入USB驱动器中进行查看。

我已经尝试了以下方法:

wget --recursive --no-remove-listing -l inf --no-parent --adjust-extension 
 --no-cookies --convert-links --page-requisites http://www.idea.int/publications/ 

这里有一个只保存 /publications/ 和其子文件夹的正确命令。但是我们页面上的图片是从 static0.idea.int 获取,它们没有被下载或重新链接,即使我使用 --page-requisites 参数。

所以我尝试了以下命令:

wget --recursive --no-remove-listing -l inf --no-parent --adjust-extension 
   --no-cookies --convert-links --page-requisites   
   --span-hosts --domains=idea.int http://offline.idea.int/publications/

希望--span-hosts选项可以允许图像被下载并通过convert-links步骤重新链接。然而,这忽略了--no-parent选项,并基本上下载了整个www.idea.int网站。
有没有办法可以下载/publications/内的所有HTML页面以及这些页面中包含的所有图像资源(即使在另一个域上),并将它们重新链接以供离线查看?
1个回答

1
这已经很晚了,但是...
wget -p -k -r -np http://www.idea.int/publications/

这里应该是正确的命令。

-p(或--page-requisites)获取显示HTML页面所需的所有图像等内容。

-k(或--convert-links)使下载的HTML或CSS中的链接指向本地文件。

-r(或--recursive)指定您要进行递归下载(下载所有子项)

-np(或--no-parent)防止其上升到父目录。

看起来你缺少的是-p标志。

注意:以上部分文本摘自wget --help。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接