如何使用sitemap在robots.txt中创建URL白名单?

3

我正在尝试创建一个网址白名单,以便爬虫访问(换句话说,我想要一个爬虫访问的网址列表,并且我希望爬虫仅访问这些文件)。

我已经有一个包含所有白名单中网址的站点地图。

我应该如何格式化 robots.txt?

这样行吗?

User-agent: *
Disallow: /
Sitemap: sitemap.txt

我需要这样做吗?
User-agent: *
Disallow: /
Allow: whitelist/*
Sitemap: sitemap.txt

我投票关闭了这个问题,因为它不是一个编程问题,并且在 Stack Overflow 上是离题的。关于您网站的非编程问题应该在 [webmasters.se] 上提问。将来请在那里提出此类问题。 - Stephen Ostermiller
2个回答

0

Sitemap和robots.txt并没有直接联系。它们是不同的技术。 robots.txt文件仅用于指向sitemap文件。仅此而已。

因此,第一个示例将不会给您所需的结果,因为每个页面的抓取设置都为“Disallow”。第二个示例是正确的,您必须将域名添加到sitemap URL中。

User-agent: *
Disallow: /
Allow: whitelist/*
Sitemap: http://www.example.com/sitemap.txt

-1

一些专业的网络爬虫,例如Slickplan,具有“忽略robots.txt”选项。因此,无需格式化“robots.txt”文件。


1
每个人都应该知道 robots.txt 应该用于什么。而某些爬虫不按照规范行事并不意味着你应该停止遵循 robots.txt 规范。 - DonPaulie

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接