我已经阅读过这三种工具都是用于网络爬虫,但它们有什么区别?在何种环境下,一种比另一种更好?
我已经阅读过这三种工具都是用于网络爬虫,但它们有什么区别?在何种环境下,一种比另一种更好?
Nodejs是一种基于Chrome的V8引擎的脚本引擎。Nodejs通常用作Web服务器,但它实际上是可以运行任何类型的脚本的。通过向其他服务器发出请求并分析输出,可以将Node用于Web抓取。
Phantomjs是一个无界面浏览器,意味着它像浏览器一样工作,但没有用户界面。独立使用时,它构成了Web测试框架的一部分,但与Casperjs一起使用更好。
Casperjs是建立在Phantomjs之上的实用工具,可帮助您构建自动化测试。
自动化测试可以被视为Web抓取器,但这并不是其真正目的。Web测试通常对正在抓取的页面的更改非常敏感,并且在DOM操作方面不必快速(因为您倾向于一次处理一页)。
我认为对于您想要的内容,Nodejs可能是最好的选择。