离线下载HTML页面

3
我希望能够通过下载html以及其中的所有图片/ css资源使网页离线可用,但不包括链接到其他页面的页面。
我看过httrackwget,但无法找到正确的参数(需要命令行)。
有任何想法吗?

1
你尝试过使用wget -p吗?你可能还需要使用-k(转换链接),这样你下载的HTML文件中的href标签仍然可以正常工作。 - tdammers
谢谢,但它无法下载图片。我看到一些关于1.12版本在我的情况下有更好的支持的帖子。这是真的吗?如果是,我该如何在Windows上获取它? - Yaron Naveh
2个回答

4
如果您想使用最新版本的 wget 进行下载,请使用 cygwin 安装程序并使用这个版本。
wget -m –w 2 –p -E -k –P {target-dir} http://{website}

将 {website} 镜像到 {target-dir}(1.11.4 版本中不包括图像)。

去掉 -w 2 可以加快进度。


我收到了“无法识别的选项`--HTML-extension'”错误。我使用的是Windows版wget 1.11.4。当我删除HTML-extension标志时,它可以运行,但输出奇怪的消息“Resolving \226w... failed: Unknown host.”这是什么意思?它确实保存了该网站,但没有HTML数据。 - Yaron Naveh
尝试使用新的命令行。如果您将错误消息粘贴到某个地方,会更有帮助。 - marc
安装cygwin版本的wget。他们拥有最新版本。如果这不起作用,在wingnu的sourceforge论坛上有一个最新的wget版本编译。 - marc
谢谢。cygwin下载很慢...只是为了避免浪费时间:你有没有注意到使用cygwin版本的wget可以下载图片,而使用Windows版本则不行? - Yaron Naveh
@YaronNaveh 让我们在聊天室里继续这个讨论 - marc
显示剩余2条评论

-1
对于一个页面,以下wget命令行参数应该足够了。请记住,它可能不会下载所有内容,包括附加到CSS文件的背景图像等。
wget -p <webpage>

还可以尝试wget --help查看所有命令行参数的列表。


这不会下载图片。我不确定应该使用哪些参数。 - Yaron Naveh
-p 用于下载图片。也许你的图片被嵌入到样式表中作为背景图片了?从帮助页面得知:-p,--page-requisites 获取显示 HTML 页面所需的所有图片等。 - Tomer Cohen

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接