在GitHub Pages中使用robots.txt有什么意义?

6
我知道文件robots.txt用于阻止第三方网站的网络爬虫索引内容站点。但是,如果该文件的目的是限制网站的私有区域或保护私有区域,那么试图使用robots.txt隐藏内容的意义在于什么?如果所有人都可以在GitHub存储库中看到所有内容,那么意义何在?我的问题涉及使用自定义域名的示例。在GitHub页面内部使用文件robots.txt是否有动机?是还是不是?为什么?为了使内容真正隐藏,需要支付获取私有存储库的网站费用。

动机与任何其他网站相同:防止机器人爬取其中的一部分。这与它是私有或无法访问无关:如果它是私有或无法访问的,机器人也无法访问它。 - JB Nizet
1个回答

3
robots.txt 的目的不是为了限制私密区域,因为搜索引擎机器人本来就无法访问它们。相反,它是用于防止搜索引擎索引一些垃圾或其他杂项内容。
例如,我编写了 Flash 游戏并使用 GitHub Pages 来检查游戏是否有更新。我在我的 GHP 上托管了这个文件,它的全部内容如下。
10579
2.2.3
https://github.com/iBug/SpaceRider/tree/master/SpaceRider%202

它包含三个信息:新版本的内部编号、新版本的显示名称和下载链接。因此,当爬虫对其进行索引时,它肯定是无用的。因此,当我有一个 robots.txt 时,这是一种我会避免被索引的东西。


那么 robots.txt 文件只是用来隐藏我的存储库中的垃圾文件吗?而不是用来保护网站的受限区域? - jonathasborges1
3
即使没有robots.txt文件,网络爬虫也无法访问受限区域。该文件告诉网络爬虫忽略它们可以访问的特定区域。 - iBug

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接