在GitHub Pages中使用robots.txt有什么意义？

Question

在GitHub Pages中使用robots.txt有什么意义？

6

我知道文件robots.txt用于阻止第三方网站的网络爬虫索引内容站点。但是，如果该文件的目的是限制网站的私有区域或保护私有区域，那么试图使用robots.txt隐藏内容的意义在于什么？如果所有人都可以在GitHub存储库中看到所有内容，那么意义何在？我的问题涉及使用自定义域名的示例。在GitHub页面内部使用文件robots.txt是否有动机？是还是不是？为什么？为了使内容真正隐藏，需要支付获取私有存储库的网站费用。

- jonathasborges1

动机与任何其他网站相同：防止机器人爬取其中的一部分。这与它是私有或无法访问无关：如果它是私有或无法访问的，机器人也无法访问它。 - JB Nizet

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- iBug · Accepted Answer

robots.txt 的目的不是为了限制私密区域，因为搜索引擎机器人本来就无法访问它们。相反，它是用于防止搜索引擎索引一些垃圾或其他杂项内容。

例如，我编写了 Flash 游戏并使用 GitHub Pages 来检查游戏是否有更新。我在我的 GHP 上托管了这个文件，它的全部内容如下。

10579
2.2.3
https://github.com/iBug/SpaceRider/tree/master/SpaceRider%202

它包含三个信息：新版本的内部编号、新版本的显示名称和下载链接。因此，当爬虫对其进行索引时，它肯定是无用的。因此，当我有一个 robots.txt 时，这是一种我会避免被索引的东西。