从命令行执行HTML JavaScript

3
我有许多网页,我正试图使用curl获取信息并解析。每个页面在文档加载到浏览器后(使用document.ready函数)使用JQuery来转换其内容 - 主要是设置div的类/ID。一旦Javascript函数被加载,信息就更容易解析。

如何执行页面的Javascript内容并将转换后的HTML输出?有哪些选项可供选择(最好从命令行执行)?


1
http://getfirebug.com/commandline 这是你要找的吗,伙计。 - Tats_innit
+1 听起来很有趣 :) 我曾经考虑过使用 node.js,但那对你来说行不通 =/ - Ja͢ck
1个回答

2
要爬取动态网站,不要使用像curl这样的静态下载工具。
如果你想爬取动态网站,可以使用一个无头浏览器,你可以从编程语言中控制它。最流行的工具是Selenium。

http://code.google.com/p/selenium/

使用Selenium,您可以将修改后的DOM树导出为HTML文件以在浏览器外部进行操作。
一个示例用例:

https://dev59.com/vmLVa4cB1Zd3GeqPwG3n#10053589


谢谢Mikko,最终我使用了Selenium和Java & Chrome绑定来加载每个页面,并随后转储页面源代码 - 它非常有效! - mmccomb

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接