我可以让wget仅检索单个文件夹（及其子文件夹），但也保存并重新链接外部图片吗？

Question

我可以让wget仅检索单个文件夹（及其子文件夹），但也保存并重新链接外部图片吗？

3

我正在尝试下载www.idea.int网站中的/publications/文件夹，以便在离线情况下将其放入USB驱动器中进行查看。

我已经尝试了以下方法：

wget --recursive --no-remove-listing -l inf --no-parent --adjust-extension 
 --no-cookies --convert-links --page-requisites http://www.idea.int/publications/

这里有一个只保存 /publications/ 和其子文件夹的正确命令。但是我们页面上的图片是从 static0.idea.int 获取，它们没有被下载或重新链接，即使我使用 --page-requisites 参数。

所以我尝试了以下命令：

wget --recursive --no-remove-listing -l inf --no-parent --adjust-extension 
   --no-cookies --convert-links --page-requisites   
   --span-hosts --domains=idea.int http://offline.idea.int/publications/

希望--span-hosts选项可以允许图像被下载并通过convert-links步骤重新链接。然而，这忽略了--no-parent选项，并基本上下载了整个www.idea.int网站。

有没有办法可以下载/publications/内的所有HTML页面以及这些页面中包含的所有图像资源（即使在另一个域上），并将它们重新链接以供离线查看？

- Nic Cottrell

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Tim McClure · Accepted Answer

这已经很晚了，但是...

wget -p -k -r -np http://www.idea.int/publications/

这里应该是正确的命令。

-p（或--page-requisites）获取显示HTML页面所需的所有图像等内容。

-k（或--convert-links）使下载的HTML或CSS中的链接指向本地文件。

-r（或--recursive）指定您要进行递归下载（下载所有子项）

-np（或--no-parent）防止其上升到父目录。

看起来你缺少的是-p标志。

注意：以上部分文本摘自wget --help。