sitemap应该在robots.txt中被禁止吗?robots.txt本身呢?

7

这是一个非常基本的问题,但我在网上找不到直接的答案。当在谷歌上搜索我的网站时,搜索结果中会返回sitemap.xml和robots.txt(以及更有用的结果)。为了防止这种情况发生,我应该在robots.txt文件中添加以下行吗?:

Disallow: /sitemap.xml
Disallow: /robots.txt

这不会阻止搜索引擎访问站点地图或机器人文件吗?另外/或者,我应该使用谷歌的URL删除工具吗?
1个回答

2
您无法阻止爬虫索引robots.txt,因为这是鸡生蛋或蛋生鸡的情况。但是,如果您没有指定Google和其他搜索引擎直接查看网站地图,那么您可能会因拒绝sitemap.xml而失去一些索引权重。是否有特定原因不希望用户能够查看网站地图呢?我实际上只针对Google爬虫进行了设置。
 Allow: /
 # Sitemap
 Sitemap: http://www.mysite.com/sitemap.xml

1
我不想阻止用户查看网站地图文件,但我只是不希望它出现在搜索结果中。有没有办法做到这一点?还有 robots.txt 文件呢?我基本上只想让包含网站内容的“有用”的 URL 出现在搜索结果中。 - RLJ
关于这件事情,需要注意的是,如果您的站点地图和robots.txt文件比您的内容获得更多的点击量,那么您必须要思考其中的原因。您的内容应该总是比XML文件更能吸引用户。如果您真的很担心,可以进行一些后端服务器技术操作,使用后端语言或Web服务器在服务器头响应中放置所谓的X-Robots标签。http://yoast.com/x-robots-tag-play/ - EstebanSmits
5
如果Sitemap没有在公共资源(例如HTML页面)中链接,我们不会对其进行索引(即在搜索结果中返回Sitemap)。如果您只在robots.txt文件中列出它,我们也不会对其进行索引。需要注意的一点是,如果禁止爬取Sitemap,我们将无法爬取并使用它。 - methode
@RLJ,没有一个合适的搜索引擎会公开你的sitemap.xmlrobots.txt文件——它们是专门用机器可读文件格式编写的机器可读文件。如果你的站点地图引用了任何HTML文件,并且你的站点地图被认为有价值,那么搜索引擎会呈现该文件。 - Barney
@methode【需要引用】 - Jayen

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接