存储网络爬虫状态的最佳优化方式是什么？

Question

存储网络爬虫状态的最佳优化方式是什么？

optimizationpersistencestorageweb-crawlerscrapy

4

我正在编写一个网络爬虫（使用Python框架scrapy）。最近，我需要实现一个暂停/恢复系统。我实现的解决方案是最简单的一种，基本上在链接被调度时存储链接，并在它们实际被处理时将其标记为“已处理”。因此，在恢复蜘蛛时，我能够获取这些链接（显然比只有URL、深度值、链接所属的域等更多的内容存储），到目前为止一切都正常。目前，我只是使用MySQL表来处理这些存储操作，主要是为了快速原型设计。现在，我想知道如何优化这个过程，因为我认为数据库不应该是唯一可用的选项。通过优化，我的意思是使用非常简单和轻量级的系统，同时仍然能够在短时间内处理大量数据。目前，它应该能够处理几十个域名的爬取，这意味着每秒存储几千个链接...提前感谢您的建议。

- Sylvain

2个回答

2

在PyCon 2009上有一个讲座可能会引起您的兴趣，由Bill Gribble主讲的数据分析应用程序的精确状态恢复和重启。

另一种快速保存应用程序状态的方法是使用pickle将应用程序状态序列化到磁盘上。

- John Paulett

我相当确定不能使用pickle，因为一些对象（来自twisted库）。感谢提供链接，我会尽快查看它。 - Sylvain

最终抽出一些时间来看这个讲座。很有趣。然而，我认为它超出了我的简单需求 :-) - Sylvain

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Alex Martelli · Accepted Answer

最快的持久化方法通常是将它们附加到日志中--这种完全的顺序访问模式最小化了磁盘寻道，这通常是存储时间成本的最大部分。重新启动时，您会重新阅读日志并重建您在第一次附加到日志时正在构建的内存结构。

您的特定应用程序可以进一步优化，因为它不一定需要100％的可靠性--如果由于突然崩溃而错过写入几个条目，那么好吧，您只需再次爬行它们。因此，您的日志文件可以进行缓冲，并且不需要过于关注fsync。

我想搜索结构也适合内存（如果仅用于几十个站点，则可能只需保留具有所有URL的集合，无需任何花哨的布隆过滤器）。如果没有，您可能必须仅在内存中保留一组最近的条目，并定期将该组转储到磁盘（例如，将所有条目合并为{{link1：Berkeley DB}}文件）;但是，我不会详细介绍这些选项，因为似乎您不需要它们。