我可以使用“Host”指令在robots.txt文件中吗？

Question

14

在寻找关于robots.txt的特定信息时，我偶然发现了一个有关此主题的Yandex帮助页面‡。它建议我可以使用Host指令来告诉网络爬虫我的首选镜像域：

User-Agent: *
Disallow: /dir/
Host: www.example.com

同时，维基百科条目指出Google也理解Host指令，但没有太多（即零）信息。

在robotstxt.org上，我没有找到关于Host（或维基百科上提到的Crawl-delay）的任何内容。

^‡ 至少自2021年初以来，链接的条目不再涉及所讨论的指令。

- dakab

这个问题似乎不适合讨论，因为它涉及到SEO。 - John Conde

4

关于主机名和robots.txt的技术方面，标签为“seo”和“robots.txt”。它为何显得离题？ - dakab

1

如果有人正在寻找Yandex主机指令规范，这里是链接：https://web.archive.org/web/20190102064128/https://yandex.com/support/webmaster/controlling-robot/robots-txt.html - t1gor

2个回答

2

Google不支持在robots.txt文件中使用Host:，所以最好避免使用它。

这是来自Google搜索控制台的robots.txt测试工具的屏幕截图，显示Googlebot不识别Host:规则。

- Waqas Hussain Awan

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- unor · Accepted Answer

未识别的头部信息将被忽略。

虽然文档中称其为“头部信息”，但该术语在任何地方均未定义。但由于它在格式部分提到，并且与 User-agent 和 Disallow 在同一段落中提到，因此可以安全地假设“头部信息”指的是“字段名称”。

因此，是的，您可以使用 Host 或任何其他字段名称。

但请注意：由于它们未在 Robots.txt 项目中进行详细说明，因此无法确定不同的解析器以相同的方式支持此字段。因此，您需要手动检查每个支持的解析器。