首先,我不知道这是否是发布此问题的正确位置。如果不是,我很抱歉 :)
我在考虑编写一个爬虫程序,对网络进行爬取以查找特定的嵌入式文件。
但是,我想知道是否允许运行爬虫程序,因为它会以快速的速度发出许多请求。
还是应该在请求中加入一些延迟时间?
我已经阅读了我的ISP合同,但是没有找到有关爬虫程序的具体信息。
首先,我不知道这是否是发布此问题的正确位置。如果不是,我很抱歉 :)
我在考虑编写一个爬虫程序,对网络进行爬取以查找特定的嵌入式文件。
但是,我想知道是否允许运行爬虫程序,因为它会以快速的速度发出许多请求。
还是应该在请求中加入一些延迟时间?
我已经阅读了我的ISP合同,但是没有找到有关爬虫程序的具体信息。
没有什么能禁止你爬取数据。它与正常用户交互没有区别。如果你打开了一个有很多图片的页面,浏览器会同时发出很多请求。
你可以有传输限制 - 只需注意你下载了多少数据。
你必须考虑的是,爬取大量页面可能被视为 DoS 攻击或被页面运营者禁止。遵守他们的规定。如果他们要求每台计算机每天最多不超过 N 次请求,请尊重它。进行一些延迟以避免阻塞对网站的访问。