我正在尝试构建一个专门的搜索引擎网站,该网站索引了有限数量的网站。 我想到的解决方案是:
- 使用Nutch作为网络爬虫,
- 使用Solr作为搜索引擎,
- 前端和站点逻辑使用Wicket编写。
问题在于,我发现Nutch相当复杂,而且它是一款大型软件,很难进行定制,尽管详细的文档(书籍,最新教程等)并不存在。
现在的问题是:
- 对于该网站的整体想法有何建设性的批评?
- 是否有比Nutch更好但又简单的替代品(作为网站中的爬取部分)?
谢谢
我正在尝试构建一个专门的搜索引擎网站,该网站索引了有限数量的网站。 我想到的解决方案是:
问题在于,我发现Nutch相当复杂,而且它是一款大型软件,很难进行定制,尽管详细的文档(书籍,最新教程等)并不存在。
现在的问题是:
谢谢
Scrapy 是一个用 Python 编写的用于爬取网站的库。相比 Nutch,它规模较小且专为有限制的网站爬取而设计。其采用类似 Django 的 MVC 模式,我发现很容易进行自定义。
我相信Nutch是你的应用程序的最佳选择,但如果你想要,还有一个简单的工具:Heritrix。 此外,我建议使用js作为前端语言,因为solr返回的json可以很容易地被js处理。