Scrapy Django 限制爬取链接数

6

我刚刚安装并运行了Scrapy,它很好用,但是我有两个(新手)问题。首先我要说,我完全是新手,对Scrapy和爬取网站一无所知。

  1. 你能限制爬取的链接数量吗?我有一个网站没有使用分页,只在首页上列出许多链接(我正在爬取)。我觉得爬取所有这些链接很糟糕,因为我只需要爬取前10个左右的链接。

  2. 如何同时运行多个爬虫?现在我使用命令scrapy crawl example.com,但我还有example2.com和example3.com的爬虫。我想用一个命令运行所有的爬虫。这可行吗?


一次性爬取整个网站可能会导致您被该网站禁止访问,这是不良/粗鲁的行为。 Scrapy是并发的,因此它使用多个连接一次性访问。请查看配置设置的超时设置。 - nate c
你有关于我的第二个问题的任何想法吗?看起来可能是我忽略了一些非常明显的东西。 - imns
要同时运行多个爬虫,请使用以下命令:scrapy crawl example.com example2.com example3.com - Pablo Hoffman
2个回答

2

对于#1:不要使用rules属性来提取链接并跟踪,将规则编写在parse函数中并yield或return Requests对象。

对于#2:尝试使用scrapyd。


1

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接