我正在使用Scrapy爬取一个网站,并希望将结果分成两部分。通常,我这样调用Scrapy:
$ scrapy crawl articles -o articles.json
$ scrapy crawl authors -o authors.json
这两只蜘蛛是完全独立的,它们不会进行任何交流。这个设置对于小型网站来说是可行的,但对于较大的网站来说,我无法像这样爬取太多的作者。
我应该如何让 articles
蜘蛛告知 authors
蜘蛛要爬取哪些页面并保持这个双文件结构?理想情况下,我不希望将作者 URL 写入文件中,然后再用另一个蜘蛛读取它。