我可以使用“Host”指令在robots.txt文件中吗?

14

在寻找关于robots.txt的特定信息时,我偶然发现了一个有关此主题的Yandex帮助页面‡。它建议我可以使用Host指令来告诉网络爬虫我的首选镜像域:

User-Agent: *
Disallow: /dir/
Host: www.example.com

同时,维基百科条目指出Google也理解Host指令,但没有太多(即零)信息。

robotstxt.org上,我没有找到关于Host(或维基百科上提到的Crawl-delay)的任何内容。

  1. 是否鼓励使用Host指令?
  2. Google是否有关于这个robots.txt的专门资源?
  3. 其他网络爬虫的兼容性如何?

至少自2021年初以来,链接的条目不再涉及所讨论的指令。


这个问题似乎不适合讨论,因为它涉及到SEO。 - John Conde
4
关于主机名和robots.txt的技术方面,标签为“seo”和“robots.txt”。它为何显得离题? - dakab
1
如果有人正在寻找Yandex主机指令规范,这里是链接:https://web.archive.org/web/20190102064128/https://yandex.com/support/webmaster/controlling-robot/robots-txt.html - t1gor
2个回答

15

original robots.txt specification的规定如下:

未识别的头部信息将被忽略。

虽然文档中称其为“头部信息”,但该术语在任何地方均未定义。但由于它在格式部分提到,并且与 User-agentDisallow 在同一段落中提到,因此可以安全地假设“头部信息”指的是“字段名称”。

因此,是的,您可以使用 Host任何 其他字段名称。

  • 支持此类字段的 Robots.txt 解析器会支持它们。
  • 不支持此类字段的 Robots.txt 解析器必须忽略它们。

但请注意:由于它们未在 Robots.txt 项目中进行详细说明,因此无法确定不同的解析器以相同的方式支持此字段。因此,您需要手动检查每个支持的解析器。


那么Host是别人对机器人排除标准的补充,因为它在robotstxt.org上没有定义‽ - dakab
2
@dakab:是的,在原始的robots.txt规范中没有指定“Host”字段。 - unor

2
Google不支持在robots.txt文件中使用Host:,所以最好避免使用它。
这是来自Google搜索控制台的robots.txt测试工具的屏幕截图,显示Googlebot不识别Host:规则。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接