从Wayback Machine恢复旧网站

26

有没有办法从Wayback机器上恢复整个网站?

我有一个旧网站被存档了,但现在已经没有网站文件可以重新恢复它。是否有一种方法可以恢复旧数据,以便我可以找回失落已久的文件?


“网站文件”是什么意思 - 只是HTML吗?如果是的话,那么您肯定可以直接访问该网页,并通过浏览器从那里下载源代码。 - franka
是的,HTML、CSS、图像和可能的PHP文件。这个项目有多个页面,包括图像和自定义CSS。 - Dustin
3
我遇到了相同的问题,最终编写了一个宝石。要安装:gem install wayback_machine_downloader 然后使用要检索的网站的基本URL作为参数运行它:wayback_machine_downloader http://example.com 更多信息请参见:https://github.com/hartator/wayback_machine_downloader - Hartator
1个回答

47

wget 是一个很棒的工具,可以镜像整个网站。如果你使用Windows系统,可以使用Cygwin来安装它。下面的命令将会镜像整个网站:wget -m domain.name

来自评论的更新:

下面的示例命令使用了一起使用了多个参数:禁止向上查找父目录(-np),忽略robots.txt(-e robots=off),使用CDN域名(--domains=domain.name),并镜像某个URL(要镜像的URL是http://an.example.com)。所有这些参数全部放在一起得到如下命令:

 wget -np -e robots=off --mirror --domains=staticweb.archive.org,web.archive.org http://web.archive.org/web/19970708161549/http://www.google.com/

如果你正在处理 https 和自签名证书,可以使用 --no-check-certificate 来禁用证书检查。wget 帮助是查看可能选项的最佳地方。


2
+1 为帮助解决递归爬取被阻止问题!这应该是一个受认可的答案。 - jibiel
1
-np 帮助保持在指定的日期路径上,不会离开它。 - Ray
好的,我会更新这个例子。 - mguymon
1
@mguymon 但是有没有办法用那个命令下载CSS和图片呢? - jcarlosweb
1
@jcarlosweb,您需要删除“-np”,然后限制递归深度,例如使用“-l 3”。 - valiano
显示剩余4条评论

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接