我正在使用wget下载一个巨大的网页列表(大约70000个)。我被迫在连续的wget之间放置大约2秒钟的休眠时间。这需要很长时间,大约70天左右。我想要做的是使用代理,以便可以显着加快这个过程。我正在使用一个简单的bash脚本进行此过程。欢迎任何建议和评论。
我正在使用wget下载一个巨大的网页列表(大约70000个)。我被迫在连续的wget之间放置大约2秒钟的休眠时间。这需要很长时间,大约70天左右。我想要做的是使用代理,以便可以显着加快这个过程。我正在使用一个简单的bash脚本进行此过程。欢迎任何建议和评论。
第一条建议是不要使用Bash或wget。我建议使用Python和Beautiful Soup。Wget并不真正为屏幕抓取而设计。
第二条建议是通过在每台机器上运行列表的一部分来将负载分散到多个机器上。
由于带宽似乎是您的问题,您可以轻松地生成一些云映像,并将脚本放在这些映像上。