我刚刚安装并运行了Scrapy,它很好用,但是我有两个(新手)问题。首先我要说,我完全是新手,对Scrapy和爬取网站一无所知。
你能限制爬取的链接数量吗?我有一个网站没有使用分页,只在首页上列出许多链接(我正在爬取)。我觉得爬取所有这些链接很糟糕,因为我只需要爬取前10个左右的链接。
如何同时运行多个爬虫?现在我使用命令
scrapy crawl example.com
,但我还有example2.com和example3.com的爬虫。我想用一个命令运行所有的爬虫。这可行吗?
对于#1:不要使用rules属性来提取链接并跟踪,将规则编写在parse函数中并yield或return Requests对象。
对于#2:尝试使用scrapyd。
感谢Shane,这里是https://groups.google.com/forum/?fromgroups#!topic/scrapy-users/EyG_jcyLYmU。
使用CloseSpider应该可以让您指定这种限制。
http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.contrib.closespider
由于我不需要它,所以还没有尝试过。看起来你可能也需要在设置文件中启用它作为扩展(请参见同一页顶部)。
scrapy crawl example.com example2.com example3.com
- Pablo Hoffman