我已经在Perl中构建Web爬虫工具工作了几年,考虑到垃圾邮件的问题以及如果Perl的LWP :: UserAgent可以处理其JavaScript,那么对于这些人来说,爬取Web页面将变得更加容易,我惊讶于为什么还没有人为其构建JS引擎。
我在这里错过了什么吗?
提前感谢。问候。
PS:我不是垃圾邮件发送者。只是好奇。
我已经在Perl中构建Web爬虫工具工作了几年,考虑到垃圾邮件的问题以及如果Perl的LWP :: UserAgent可以处理其JavaScript,那么对于这些人来说,爬取Web页面将变得更加容易,我惊讶于为什么还没有人为其构建JS引擎。
我在这里错过了什么吗?
提前感谢。问候。
PS:我不是垃圾邮件发送者。只是好奇。
还有Win32::IE::Mechanize,Mozilla::Mechanize。但是之前提到的WWW::Selenium是最DWIW且最受支持的,如果您可以访问浏览器并运行Selenium服务器。Selenium是一个Java小动物,为您运行浏览器交互。它有IDE适用于多个浏览器,并可以为您编写代码-通过记录浏览器操作-使用多种语言,包括Perl或手写。它是测试中心化的,擅长这方面,但没有理由不将其用于一般自动化/抓取。
我认为您也可以安装v8-shell作为替代引擎,但是首先必须安装'scons',该软件仅在Unix上可用。/path/to/spidermonkey/bin/js -e“print(10);”
> 10
./v8-shell -e 'print("10*10 = " + 10*10)'