robots.txt文件:user-agent: Googlebot disallow: /,Google仍在索引

6

看一下这个网站的robots.txt文件:

fr2.dk/robots.txt

文件内容如下:

User-Agent: Googlebot
Disallow: /

那应该会告诉谷歌不要索引这个网站,对吧?

如果是这样的话,为什么这个网站还会出现在谷歌搜索结果中呢?


2
你是否使用过Google网站管理员工具来检查你的robots.txt文件? - bzlm
因为这是现在的一件事 https://github.com/google/robotstxt - vhs
3个回答

7
除了需要等待因为谷歌索引更新需要一些时间之外,还要注意如果有其他网站链接到您的网站,仅使用robots.txt是不足以删除您的网站的。
引用谷歌的支持页面"从Google的搜索结果中删除页面或站点"
如果该页面仍然存在但您不希望它出现在搜索结果中,请使用robots.txt阻止Google爬取。请注意,在一般情况下,即使URL被robots.txt禁止,如果我们在另一个网站上找到其URL,我们仍然可能会索引该页面。然而,如果该页面被robots.txt阻止并且有一个活动的移除请求,则Google不会索引该页面。
上述文档中还提到了一种可能的替代解决方案:

或者,您可以使用noindex元标记。当我们在页面上看到这个标记时,即使其他页面链接到它,Google也会完全从我们的搜索结果中删除该页面。如果您没有直接访问网站服务器的权限,这是一个很好的解决方案。(您需要能够编辑页面的HTML源代码)。


你可能想强调第一条引用的最后一部分:“...并且有一个主动删除页面的请求。” - Jim Mischel
这不是指已经被索引的网站吗?强制将其纳入谷歌的封闭工具花园,几乎不能算是谷歌尊重排除标准的方式。 - vhs

1
我可以确认Google不尊重机器人排除文件。这是我的文件,我在将此来源放在线之前创建了它:

https://git.habd.as/robots.txt

并且文件的完整内容如下:

User-agent: *
Disallow:

User-agent: Google
Disallow: /

谷歌仍然对其进行了索引。

自去年三月取消我的帐户后,我不再使用谷歌,也从未将此网站添加到除Yandex之外的Webmaster控制台,这让我有两个假设:

  1. 谷歌正在抓取Yandex
  2. 谷歌不尊重机器人排除标准

我还没有检查过我的日志,但我会去查找,我的假设是我会发现谷歌蜘蛛在那里行为不端。


1
如果您刚刚添加了这个,那么您需要等待一段时间 - 它不是即时的 - 直到Googlebot返回重新爬取网站并查看robots.txt文件,否则该网站仍将存在于他们的数据库中。
我怀疑这与此无关,但您可能希望将您的“Agent”更改为“agent” - Google很可能对此不区分大小写,但完全按照标准操作不会有害。

谢谢。但是该文件自2008年以来一直存在,所以现在应该已经生效了;)大写的“Agent”可能是Google不尊重它的原因吗? - Anders
改变一下也不会有什么损失。然后等待谷歌机器人再次出现。如果它在您的网站上只访问了robots.txt文件,那么您就知道更改已经生效了。 - Marc B

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接