我想要爬取一些特定的内容,例如音乐会、电影、艺术画廊开幕等等。任何值得花时间前往的活动。
我应该如何实现一个爬虫呢?
我听说过 Grub(grub.org -> Wikia)和 Heritix(http://crawler.archive.org/)。
还有其他的选择吗?
大家有什么意见呢?
-Jason
我想要爬取一些特定的内容,例如音乐会、电影、艺术画廊开幕等等。任何值得花时间前往的活动。
我应该如何实现一个爬虫呢?
我听说过 Grub(grub.org -> Wikia)和 Heritix(http://crawler.archive.org/)。
还有其他的选择吗?
大家有什么意见呢?
-Jason
这个主题的优秀入门文本是《信息检索导论》(可在线获取完整文本)。它有一章关于网络爬虫,但更重要的是,它为您想要使用抓取的文档提供了基础。
(来源:stanford.edu)
请查看Scrapy。它是一个使用Python编写的开源网络爬虫框架(听说类似于Django,不同的是它不是用来提供网页服务,而是下载它们)。它容易扩展、分布式/并行,并且非常有前途。
我会使用Scrapy,因为这样我可以节省我的力量,用于更琐碎的事情,如从抓取的内容中提取正确的数据并插入数据库。
有语言特定的要求吗?
一段时间以前,我花了些时间在个人实验中玩弄 Chilkat Spider Lib's 用于 .net,
据我最后检查,它们的蜘蛛库是作为免费软件许可的, (尽管据我所知不是开源的 :( )
看起来他们也有 Python 的库。
http://www.example-code.com/python/pythonspider.asp #Python http://www.example-code.com/csharp/spider.asp #.Net
继Kevin提到的RSS订阅建议之后,您可能想要查看Yahoo Pipes。我还没有尝试过它们,但我认为它们允许您处理多个RSS订阅并生成网页或更多的RSS订阅。