我有许多网页,我正试图使用curl获取信息并解析。每个页面在文档加载到浏览器后(使用document.ready函数)使用JQuery来转换其内容 - 主要是设置div的类/ID。一旦Javascript函数被加载,信息就更容易解析。
如何执行页面的Javascript内容并将转换后的HTML输出?有哪些选项可供选择(最好从命令行执行)?
如何执行页面的Javascript内容并将转换后的HTML输出?有哪些选项可供选择(最好从命令行执行)?
http://code.google.com/p/selenium/
使用Selenium,您可以将修改后的DOM树导出为HTML文件以在浏览器外部进行操作。