我希望能够阻止那些无用的网络爬虫(也就是那些忽略 robots.txt 文件的坏机器人),它们会窃取网站内容并消耗带宽。同时,我不想干扰合法用户的使用体验,或者阻止良好行为的机器人(例如 Googlebot)对网站进行索引。
已经有一种处理这个问题的标准方法,在这里已经描述过:Tactics for dealing with misbehaving robots。然而,在那篇文章中被提出和赞同的解决方案并不符合我的要求。
一些坏的机器人通过 tor 或者 botnets 连接,这意味着它们的 IP 地址是短暂的,并且可能属于一个使用受损计算机的人。
因此,我一直在思考如何改进行业标准方法,让被列入黑名单的“误报”(即人类)重新访问我的网站。一个想法是停止直接阻止这些IP,并要求它们在获准访问之前通过CAPTCHA。虽然我认为对于合法用户而言,CAPTCHA是一个讨厌的问题,但用CAPTCHA审核疑似的恶意机器人似乎比完全封锁这些IP更好。通过跟踪完成CAPTCHA的用户的会话,我应该能够确定他们是否是人类(应将其IP从黑名单中删除),还是足够聪明以解决CAPTCHA的机器人,将它们放在更黑的名单上。
但在我实施这个想法之前,我想问问这里的好人是否预见到任何问题或弱点(我已经意识到一些CAPTCHA已经被破解了 - 但我认为我应该能够处理)。
已经有一种处理这个问题的标准方法,在这里已经描述过:Tactics for dealing with misbehaving robots。然而,在那篇文章中被提出和赞同的解决方案并不符合我的要求。
一些坏的机器人通过 tor 或者 botnets 连接,这意味着它们的 IP 地址是短暂的,并且可能属于一个使用受损计算机的人。
因此,我一直在思考如何改进行业标准方法,让被列入黑名单的“误报”(即人类)重新访问我的网站。一个想法是停止直接阻止这些IP,并要求它们在获准访问之前通过CAPTCHA。虽然我认为对于合法用户而言,CAPTCHA是一个讨厌的问题,但用CAPTCHA审核疑似的恶意机器人似乎比完全封锁这些IP更好。通过跟踪完成CAPTCHA的用户的会话,我应该能够确定他们是否是人类(应将其IP从黑名单中删除),还是足够聪明以解决CAPTCHA的机器人,将它们放在更黑的名单上。
但在我实施这个想法之前,我想问问这里的好人是否预见到任何问题或弱点(我已经意识到一些CAPTCHA已经被破解了 - 但我认为我应该能够处理)。