我正在尝试创建一个网址白名单,以便爬虫访问(换句话说,我想要一个爬虫访问的网址列表,并且我希望爬虫仅访问这些文件)。
我已经有一个包含所有白名单中网址的站点地图。
我应该如何格式化 robots.txt?
这样行吗?
User-agent: *
Disallow: /
Sitemap: sitemap.txt
我需要这样做吗?
User-agent: *
Disallow: /
Allow: whitelist/*
Sitemap: sitemap.txt
我正在尝试创建一个网址白名单,以便爬虫访问(换句话说,我想要一个爬虫访问的网址列表,并且我希望爬虫仅访问这些文件)。
我已经有一个包含所有白名单中网址的站点地图。
我应该如何格式化 robots.txt?
这样行吗?
User-agent: *
Disallow: /
Sitemap: sitemap.txt
User-agent: *
Disallow: /
Allow: whitelist/*
Sitemap: sitemap.txt
Sitemap和robots.txt并没有直接联系。它们是不同的技术。 robots.txt文件仅用于指向sitemap文件。仅此而已。
因此,第一个示例将不会给您所需的结果,因为每个页面的抓取设置都为“Disallow”。第二个示例是正确的,您必须将域名添加到sitemap URL中。
User-agent: *
Disallow: /
Allow: whitelist/*
Sitemap: http://www.example.com/sitemap.txt
一些专业的网络爬虫,例如Slickplan,具有“忽略robots.txt”选项。因此,无需格式化“robots.txt”文件。