我正在尝试下载www.idea.int网站中的/publications/文件夹,以便在离线情况下将其放入USB驱动器中进行查看。
我已经尝试了以下方法:
wget --recursive --no-remove-listing -l inf --no-parent --adjust-extension
--no-cookies --convert-links --page-requisites http://www.idea.int/publications/
这里有一个只保存 /publications/ 和其子文件夹的正确命令。但是我们页面上的图片是从 static0.idea.int 获取,它们没有被下载或重新链接,即使我使用 --page-requisites
参数。
所以我尝试了以下命令:
wget --recursive --no-remove-listing -l inf --no-parent --adjust-extension
--no-cookies --convert-links --page-requisites
--span-hosts --domains=idea.int http://offline.idea.int/publications/
希望
--span-hosts
选项可以允许图像被下载并通过convert-links
步骤重新链接。然而,这忽略了--no-parent
选项,并基本上下载了整个www.idea.int网站。有没有办法可以下载/publications/内的所有HTML页面以及这些页面中包含的所有图像资源(即使在另一个域上),并将它们重新链接以供离线查看?