在爬虫中使用随机用户代理和代理服务器有什么区别？

Question

4

我最近在进行网络爬虫的工作。

我发现我们可以使用代理或随机用户代理来避免反爬虫检测。

代理和随机用户代理有什么区别呢？因为当我明白两者都用于隐藏原始客户端请求身份时，我感到困惑。

如果我的理解有误，请告诉我。

- Nithin B

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- SimonR · Accepted Answer

用户代理和代理是完全不同的概念。

1）用户代理：用户代理将通过头信息发送到目标网站。

当我向stackoverflow发送请求时，我的用户代理是：

User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:68.0) Gecko/20100101 Firefox/68.0

它表示我正在使用mozilla和linux +其他信息。在Linux上使用相同浏览器（Firefox 5.0）的每个人都会有相同的用户代理。

这个库将帮助您找到在Web上使用最广泛的用户代理，以便您的用户代理看起来是匿名的：https://github.com/Lobstrio/shadow-useragent

2）代理

代理将允许您隐藏您的IP地址在代理后面。您所针对的网站将接收代理的IP地址而不是您的IP地址。如果您的IP地址被网站屏蔽，则使用代理通常可以解锁该网站。

在爬取过程中，可能会有很多原因导致您被阻止，但轮换IP和用户代理在某些情况下是有效的。