什么是一个好的网络爬虫用于下载HTML页面?

3
我正在寻找一个网络爬虫,以下载个别页面。有什么好的(最好是免费的)产品支持这个功能?

2
请解释一下这个问题为什么是一个编程问题?如果不是,请阅读我们的FAQ了解哪些问题在这里是可以被接受的。 - Oded
@Oded: 是的,这很可能属于superuser.com,或者也许是webmasters.stackexchange.com - Unsigned
我可以推荐HTTrack。GUI会引导您设置网站下载时的选项。您可以更改的有趣设置包括扫描规则(用于包含/排除文件/路径),最大镜像深度以及是否要先下载HTML文件。通常情况下,您可以保留其他默认设置。默认情况下,重写链接以便可以使用Web浏览器在本地浏览镜像站点。网站下载可以重新启动,然后只会下载本地不存在的文件。 - Nils Lindemann
4个回答

7
我推荐使用 wget 或者 curl。你的需求是什么?你需要递归地爬取页面或只下载特定的URL吗?wget 都可以实现。

0
我会选择 WGET www.gnu.org/s/wget/。

0
如果你想要下载整个网站,可以试试 wget。它有递归下载的功能。如果你需要操作头文件并且只下载一些小文件,可以尝试使用 curl(或者wget)。 如果你需要像并行下载大文件这样的功能,我建议使用 aria2


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接