我正在编写一个网络爬虫(使用Python框架scrapy)。最近,我需要实现一个暂停/恢复系统。我实现的解决方案是最简单的一种,基本上在链接被调度时存储链接,并在它们实际被处理时将其标记为“已处理”。因此,在恢复蜘蛛时,我能够获取这些链接(显然比只有URL、深度值、链接所属的域等更多的内容存储),到目前为止一切都正常。目前,我只是使用MySQL表来处理这些存储操作,主要是为了快速原型设计。现在,我想知道如何优化这个过程,因为我认为数据库不应该是唯一可用的选项。通过优化,我的意思是使用非常简单和轻量级的系统,同时仍然能够在短时间内处理大量数据。目前,它应该能够处理几十个域名的爬取,这意味着每秒存储几千个链接...提前感谢您的建议。