Scrapy Django 限制爬取链接数

Question

6

我刚刚安装并运行了Scrapy，它很好用，但是我有两个（新手）问题。首先我要说，我完全是新手，对Scrapy和爬取网站一无所知。

你能限制爬取的链接数量吗？我有一个网站没有使用分页，只在首页上列出许多链接（我正在爬取）。我觉得爬取所有这些链接很糟糕，因为我只需要爬取前10个左右的链接。
如何同时运行多个爬虫？现在我使用命令scrapy crawl example.com，但我还有example2.com和example3.com的爬虫。我想用一个命令运行所有的爬虫。这可行吗？

- imns

一次性爬取整个网站可能会导致您被该网站禁止访问，这是不良/粗鲁的行为。 Scrapy是并发的，因此它使用多个连接一次性访问。请查看配置设置的超时设置。 - nate c

你有关于我的第二个问题的任何想法吗？看起来可能是我忽略了一些非常明显的东西。 - imns

要同时运行多个爬虫，请使用以下命令：scrapy crawl example.com example2.com example3.com - Pablo Hoffman

2个回答

1

使用CloseSpider应该可以让您指定这种限制。

由于我不需要它，所以还没有尝试过。看起来你可能也需要在设置文件中启用它作为扩展（请参见同一页顶部）。

- jsh

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Jet Guo · Accepted Answer

对于#1：不要使用rules属性来提取链接并跟踪，将规则编写在parse函数中并yield或return Requests对象。

对于#2：尝试使用scrapyd。