离线下载HTML页面

Question

离线下载HTML页面

htmldownloadwgetoffline

3

我希望能够通过下载html以及其中的所有图片/ css资源使网页离线可用，但不包括链接到其他页面的页面。

我看过httrack和wget，但无法找到正确的参数（需要命令行）。

有任何想法吗？

- Yaron Naveh

1

你尝试过使用wget -p吗？你可能还需要使用-k（转换链接），这样你下载的HTML文件中的href标签仍然可以正常工作。 - tdammers

谢谢，但它无法下载图片。我看到一些关于1.12版本在我的情况下有更好的支持的帖子。这是真的吗？如果是，我该如何在Windows上获取它？ - Yaron Naveh

2个回答

-1

对于一个页面，以下wget命令行参数应该足够了。请记住，它可能不会下载所有内容，包括附加到CSS文件的背景图像等。

wget -p <webpage>

还可以尝试wget --help查看所有命令行参数的列表。

- Tomer Cohen

这不会下载图片。我不确定应该使用哪些参数。 - Yaron Naveh

-p 用于下载图片。也许你的图片被嵌入到样式表中作为背景图片了？从帮助页面得知：-p，--page-requisites 获取显示 HTML 页面所需的所有图片等。 - Tomer Cohen

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- marc · Accepted Answer

4

如果您想使用最新版本的 wget 进行下载，请使用 cygwin 安装程序并使用这个版本。

wget -m –w 2 –p -E -k –P {target-dir} http://{website}

将 {website} 镜像到 {target-dir}（1.11.4 版本中不包括图像）。

去掉 -w 2 可以加快进度。

- marc

我收到了“无法识别的选项`--HTML-extension'”错误。我使用的是Windows版wget 1.11.4。当我删除HTML-extension标志时，它可以运行，但输出奇怪的消息“Resolving \226w... failed: Unknown host.”这是什么意思？它确实保存了该网站，但没有HTML数据。 - Yaron Naveh

尝试使用新的命令行。如果您将错误消息粘贴到某个地方，会更有帮助。 - marc

安装cygwin版本的wget。他们拥有最新版本。如果这不起作用，在wingnu的sourceforge论坛上有一个最新的wget版本编译。 - marc

谢谢。cygwin下载很慢...只是为了避免浪费时间：你有没有注意到使用cygwin版本的wget可以下载图片，而使用Windows版本则不行？ - Yaron Naveh

@YaronNaveh 让我们在聊天室里继续这个讨论。 - marc

显示剩余2条评论