我正在尝试爬取一个网站,该网站首先加载html/js,然后使用js修改表单输入字段并进行POST请求。如何获取POST页面的最终html输出?
我尝试使用phantomjs来实现,但似乎它只有渲染图像文件的选项。在网上搜索表明应该是可能的,但我无法弄清楚如何做到。我的尝试:
var page = require('webpage').create();
var fs = require('fs');
page.open('https://www.somesite.com/page.aspx', function () {
page.evaluate(function(){
});
page.render('export.png');
fs.write('1.html', page.content, 'w');
phantom.exit();
});
这段代码将被用于给客户端使用,我不能指望他安装太多软件包(如Node.js、CasperJS等)。
谢谢
document.outerHTML
获取页面的内容。 - MIdhun Krishna