我想将一些使用JavaScript的网页转换为纯HTML格式,我找到了几种方法(请告诉我是否正确):
所以我尝试使用Gecko来制作一个代理服务器,但它似乎需要DISPLAY,这在远程Linux服务器上我无法提供。
现在我正在尝试使用Jython,但似乎没有简单的方法可以将整个页面转换为纯HTML格式。
实际上,我想问的是,是否有一种方法可以像浏览器那样将包含JavaScript的网页转换为纯HTML格式?Node.js可以完成这项工作吗?
- 使用Jython。例如:http://blog.databigbang.com/web-scraping-ajax-and-javascript-sites/
- 使用Java和htmlunit
- 使用代理服务器。例如:http://grep.codeconsult.ch/2007/02/24/crowbar-scrape-javascript-generated-pages-via-gecko-and-rest/
- 使用Python和qt或PyV8
所以我尝试使用Gecko来制作一个代理服务器,但它似乎需要DISPLAY,这在远程Linux服务器上我无法提供。
现在我正在尝试使用Jython,但似乎没有简单的方法可以将整个页面转换为纯HTML格式。
实际上,我想问的是,是否有一种方法可以像浏览器那样将包含JavaScript的网页转换为纯HTML格式?Node.js可以完成这项工作吗?