什么是一个好的网络爬虫用于下载HTML页面？

Question

什么是一个好的网络爬虫用于下载HTML页面？

htmlweb-crawler

3

我正在寻找一个网络爬虫，以下载个别页面。有什么好的（最好是免费的）产品支持这个功能？

- Cirem

2

请解释一下这个问题为什么是一个编程问题？如果不是，请阅读我们的FAQ了解哪些问题在这里是可以被接受的。 - Oded

@Oded: 是的，这很可能属于superuser.com，或者也许是webmasters.stackexchange.com。 - Unsigned

我可以推荐HTTrack。GUI会引导您设置网站下载时的选项。您可以更改的有趣设置包括扫描规则（用于包含/排除文件/路径），最大镜像深度以及是否要先下载HTML文件。通常情况下，您可以保留其他默认设置。默认情况下，重写链接以便可以使用Web浏览器在本地浏览镜像站点。网站下载可以重新启动，然后只会下载本地不存在的文件。 - Nils Lindemann

4个回答

0

我会选择 WGET www.gnu.org/s/wget/。

- satnhak

0

如果你想要下载整个网站，可以试试 wget。它有递归下载的功能。如果你需要操作头文件并且只下载一些小文件，可以尝试使用 curl（或者wget）。如果你需要像并行下载大文件这样的功能，我建议使用 aria2。

- Mark

0

一个开源爬虫列表：http://en.wikipedia.org/wiki/Web_crawler#Open-source_crawlers。

- Kiril

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Unsigned · Accepted Answer

我推荐使用 wget 或者 curl。你的需求是什么？你需要递归地爬取页面或只下载特定的URL吗？wget 都可以实现。