我最近在进行网络爬虫的工作。
我发现我们可以使用代理或随机用户代理来避免反爬虫检测。
代理和随机用户代理有什么区别呢?因为当我明白两者都用于隐藏原始客户端请求身份时,我感到困惑。
如果我的理解有误,请告诉我。
我最近在进行网络爬虫的工作。
我发现我们可以使用代理或随机用户代理来避免反爬虫检测。
代理和随机用户代理有什么区别呢?因为当我明白两者都用于隐藏原始客户端请求身份时,我感到困惑。
如果我的理解有误,请告诉我。
用户代理和代理是完全不同的概念。
1)用户代理:用户代理将通过头信息发送到目标网站。
当我向stackoverflow发送请求时,我的用户代理是:
User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:68.0) Gecko/20100101 Firefox/68.0
它表示我正在使用mozilla和linux +其他信息。在Linux上使用相同浏览器(Firefox 5.0)的每个人都会有相同的用户代理。
这个库将帮助您找到在Web上使用最广泛的用户代理,以便您的用户代理看起来是匿名的:https://github.com/Lobstrio/shadow-useragent
2)代理
代理将允许您隐藏您的IP地址在代理后面。您所针对的网站将接收代理的IP地址而不是您的IP地址。如果您的IP地址被网站屏蔽,则使用代理通常可以解锁该网站。
在爬取过程中,可能会有很多原因导致您被阻止,但轮换IP和用户代理在某些情况下是有效的。