如何将带有JavaScript的网页转换为普通HTML?

3
我想将一些使用JavaScript的网页转换为纯HTML格式,我找到了几种方法(请告诉我是否正确):
  1. 使用Jython。例如:http://blog.databigbang.com/web-scraping-ajax-and-javascript-sites/
  2. 使用Java和htmlunit
  3. 使用代理服务器。例如:http://grep.codeconsult.ch/2007/02/24/crowbar-scrape-javascript-generated-pages-via-gecko-and-rest/
  4. 使用Python和qt或PyV8
因为我想要制作一个小工具来满足我的要求,虽然Python是我的首选,但我认为安装V8和Qt有点复杂。
所以我尝试使用Gecko来制作一个代理服务器,但它似乎需要DISPLAY,这在远程Linux服务器上我无法提供。
现在我正在尝试使用Jython,但似乎没有简单的方法可以将整个页面转换为纯HTML格式。
实际上,我想问的是,是否有一种方法可以像浏览器那样将包含JavaScript的网页转换为纯HTML格式?Node.js可以完成这项工作吗?

使用Selenium/Ghost.py进行渲染,并将DOM转储到HTML文件中。 - Blender
你好奇地想要实现什么目标? - josh
是的,你想从页面中删除所有的JavaScript吗?这可以通过正则表达式轻松地完成... - Nicolas Straub
@JoshuaSmock 只是尝试获取由JavaScript生成的内容。 - WKPlus
@NicolásStraubValdivieso 我正在尝试提取由js生成的内容,所以不能只是将它们删除。 - WKPlus
1个回答

2
最近我在PhantomJS之上搭建了一个服务器来完成这个任务。我强烈推荐这种方法。

http://phantomjs.org/

基本上,您需要编写一个快速脚本,让PhantomJS运行页面,并配置一个触发方法,让您知道页面已完成并将数据发送出去。我的版本使用了内置的HTTP服务器,因此PhantomJS可以轻松地自行提供结果。这大约需要15行代码来完成。(抱歉,无法在这里粘贴...我是在工作时间写的。但是,请查看他们主页上的示例。它几乎完整!)

谢谢,phantomjs解决了我的问题。 - WKPlus
有没有可能再次将phantomjs.org网站上线? - dreamflasher

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接