我想问这个邮件列表的问题是,有没有人使用webkit来爬取一组随机的URL(比如从twitter流中选择10k个URL),我可以合理地期望每秒爬取多少个URL?
谢谢
我想问这个邮件列表的问题是,有没有人使用webkit来爬取一组随机的URL(比如从twitter流中选择10k个URL),我可以合理地期望每秒爬取多少个URL?
谢谢
根据您要解析的数据类型,如果您只关心JavaScript和HTML,则超文本查询语言将提供巨大的加速效果,http://htql.net/,或者您可以考虑在云端设置一些东西,例如http://watirmelon.com/2011/08/29/running-your-watir-webdriver-tests-in-the-cloud-for-free/
Node.js
和PhantomJS
做类似的事情(但我想评估其他东西)。同时,我会从你可能得到的答案中受益! - Pooria Azimi