网络爬虫应该使用BFS还是DFS算法?

4

我被委托为搜索引擎创建一个简单的网络爬虫。现在,这个爬虫应该如何精确地映射网络呢?跟随它找到的第一个链接并永不返回,还是使用一些更高级的搜索方法,如BFS或DFS?

1个回答

5
我注意到我有点晚回答这个问题,但是这是一个有趣的讨论。 BFS似乎是一个很好的策略,因为它可以在一定程度上帮助*避免对单个主机进行连续请求*。这也取决于您的域。您仍然需要处理服务器超时,但DFS肯定会造成一些伤害。同样,在DFS中,您可能会有循环引用导致无限循环,除非您做出明确安排。 还有其他更合适的选择,但在DFS和BFS之间,我认为BFS胜出。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接