将Webarchive转换为HTML

13

我成功地将一个复杂网站的行为收集到了一个Webarchive中。之后,我想将该Webarchive转换成一组嵌套目录的HTML。然而,当我使用Waf和从Apple商店购买的商业软件进行转换时,我只得到了嵌套目录和底部的HTML页面,没有图像、CSS或工作链接。

如果您感兴趣,Webarchive文档位于:

http://www.miafoto.it/it/GiroMilano.webarchive

当提取的产品质量较差时,其表现为:

http://www.miafoto.it/it/Giromilano/Pagine/default.aspx

而且还有空目录。 除了外观不同之外,Webarchive 显示与官方网站相同的行为-当选择列表框值然后按下按钮时-而提取的版本通过加载自身而不是官方页面来产生没有内容的页面。 正如您所看到的,Webarchive 超过 1MB,而提取只有 1 KB 左右。
出了什么问题,我该如何执行这样一个表面上微不足道但结果可用的业务?
谢谢。

我在以下网站发现了:http://www.atm.it/it/Giromilano/Pagine/default.aspx,它创建了带有内嵌和预设 JavaScript 代码的 axd 类型文件。令我困惑的是,Safari 如何能够将所有这些内容压缩在其 webarchive 中,并且只有不能访问那个神奇的地方才会引起我的惊讶。此外,我尝试使用 WinHTTPTrack 下载完整网站的副本,但该文件显示为 .html 文件而不是 .aspx 文件。由于我一直专注于 Mac 和 Linux,所以我必须说我更加困惑了。有人可以帮我解决吗? 谢谢,Fabrizio - user1785898
4个回答

9
textutil -convert html example.webarchive
  • 要小心——使用文件的html文件会被创建在与webarchive相同的文件夹中!
  • 我不得不用文本编辑器打开.html文件,替换“file:///image.tiff”链接(将“file:///”替换为“”),以便它们指向相对路径。
  • 此外,并非所有浏览器都能显示.tiff图像。

谁知道我们有Stack Overflow wiki呢?


2
不幸的是,textutil 破坏了原始的 HTML 结构,只创建外观类似的文档。如果需要保留原始 DOM 结构,则必须使用其他工具。 - dond

1

如果您有新的问题,请点击提问按钮进行提问。如果这有助于提供背景,可以包含此问题的链接。- [来自审查] (/ review / late-answers / 31993655) - Uttam Nath

0
保存HTML页面在Mac上,我使用Chrome。下载安装它并将您的页面保存为HTML。Safari将以webarchive格式保存网页,对我来说很难处理。

0

我通过查找页面中提交的所有参数并在我的脚本中提交它们来解决了这个问题,忽略了Web存档。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接