如何解析大量使用JavaScript的HTML文档?我知道Python中有一些库可以解析静态XML / HTML文件,但我基本上正在寻找一个程序或库(甚至是Firefox插件),它可以读取HTML + JavaScript,执行JavaScript部分,并输出没有JavaScript的HTML代码,以便在浏览器中显示时看起来完全相同。
举个简单的例子:
应该用JavaScript函数返回的适当值来替换,例如:
一个更复杂的例子是保存的Facebook HTML页面,其中充斥着大量的JavaScript代码。
可能与如何使用Node.js“执行”HTML + JavaScript页面有关,但我真的需要Node.js和JSDOM吗?另外还有用于渲染HTML和JavaScript的Python库,但我不仅对纯HTML输出感兴趣。
举个简单的例子:
<a href="javascript:web_link(34, true);">link</a>
应该用JavaScript函数返回的适当值来替换,例如:
<a href="http://www.example.com">link</a>
一个更复杂的例子是保存的Facebook HTML页面,其中充斥着大量的JavaScript代码。
可能与如何使用Node.js“执行”HTML + JavaScript页面有关,但我真的需要Node.js和JSDOM吗?另外还有用于渲染HTML和JavaScript的Python库,但我不仅对纯HTML输出感兴趣。