如何使用sitemap在robots.txt中创建URL白名单？

Question

3

我正在尝试创建一个网址白名单，以便爬虫访问（换句话说，我想要一个爬虫访问的网址列表，并且我希望爬虫仅访问这些文件）。

我已经有一个包含所有白名单中网址的站点地图。

我应该如何格式化 robots.txt？

这样行吗？

User-agent: *
Disallow: /
Sitemap: sitemap.txt

我需要这样做吗？

User-agent: *
Disallow: /
Allow: whitelist/*
Sitemap: sitemap.txt

- Andy

我投票关闭了这个问题，因为它不是一个编程问题，并且在 Stack Overflow 上是离题的。关于您网站的非编程问题应该在 [webmasters.se] 上提问。将来请在那里提出此类问题。 - Stephen Ostermiller

2个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Martin Krung · Answer 1

Sitemap和robots.txt并没有直接联系。它们是不同的技术。 robots.txt文件仅用于指向sitemap文件。仅此而已。

因此，第一个示例将不会给您所需的结果，因为每个页面的抓取设置都为“Disallow”。第二个示例是正确的，您必须将域名添加到sitemap URL中。

User-agent: *
Disallow: /
Allow: whitelist/*
Sitemap: http://www.example.com/sitemap.txt

- Konrad · Answer 2

一些专业的网络爬虫，例如Slickplan，具有“忽略robots.txt”选项。因此，无需格式化“robots.txt”文件。