在爬虫中使用随机用户代理和代理服务器有什么区别?

4

我最近在进行网络爬虫的工作。

我发现我们可以使用代理或随机用户代理来避免反爬虫检测。

代理和随机用户代理有什么区别呢?因为当我明白两者都用于隐藏原始客户端请求身份时,我感到困惑。

如果我的理解有误,请告诉我。

1个回答

2

用户代理和代理是完全不同的概念。

1)用户代理:用户代理将通过头信息发送到目标网站。

当我向stackoverflow发送请求时,我的用户代理是:

User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:68.0) Gecko/20100101 Firefox/68.0

它表示我正在使用mozilla和linux +其他信息。在Linux上使用相同浏览器(Firefox 5.0)的每个人都会有相同的用户代理。

这个库将帮助您找到在Web上使用最广泛的用户代理,以便您的用户代理看起来是匿名的:https://github.com/Lobstrio/shadow-useragent

2)代理

代理将允许您隐藏您的IP地址在代理后面。您所针对的网站将接收代理的IP地址而不是您的IP地址。如果您的IP地址被网站屏蔽,则使用代理通常可以解锁该网站。

在爬取过程中,可能会有很多原因导致您被阻止,但轮换IP和用户代理在某些情况下是有效的。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接