我无法使用wget来镜像网站的一个部分(根路径下的文件夹路径)- 它似乎只能从网站首页起作用。
我尝试了许多选项 - 这里是一个示例
wget -rkp -l3 -np http://somewebsite/subpath/down/here/
虽然我只想镜像下面链接的内容,但我还需要下载不在此路径中的所有页面资源。
对于主页(/
),它似乎工作正常,但我无法将其应用到任何子文件夹中。
使用 --mirror
(-m
) 和 --no-parent
(-np
) 选项,再加上一些酷炫的选项,就像这个例子中一样:
wget --mirror --page-requisites --adjust-extension --no-parent --convert-links
--directory-prefix=sousers http://stackoverflow.com/users
我通常使用:
wget -m -np -p $url
-p
选项下载显示页面所需的所有内容非常有用。这是否覆盖了仅下载显示页面所需元素的-np
选项呢? - Geremia-m
表示镜像,-np
表示无父级(在递归时不检索更高层次的文件),-p
表示页面必需品或所有必要的项目以适当地显示网页。 - Shrout1我使用pavuk来完成镜像,因为从一开始它似乎更适合这个目的。您可以使用类似以下的东西:
/usr/bin/pavuk -enable_js -fnrules F '*.php?*' '%o.php' -tr_str_str '?' '_questionmark_' \
-norobots -dont_limit_inlines -dont_leave_dir \
http://www.example.com/some_directory/ >OUT 2>ERR
请查看archivebox.io,它是一个开源的、自托管的工具,可以创建本地的、静态的、可浏览的网站HTML克隆(它保存HTML、JS、媒体文件、PDF、截图、静态资源等)。
默认情况下,它只存档您指定的URL,但我们很快将添加一个--depth=n
标志,让您递归地存档给定URL中的链接。