robots.txt文件：user-agent: Googlebot disallow: /，Google仍在索引

Question

robots.txt文件：user-agent: Googlebot disallow: /，Google仍在索引

6

看一下这个网站的robots.txt文件：

文件内容如下：

User-Agent: Googlebot
Disallow: /

那应该会告诉谷歌不要索引这个网站，对吧？

如果是这样的话，为什么这个网站还会出现在谷歌搜索结果中呢？

- Anders

2

你是否使用过Google网站管理员工具来检查你的robots.txt文件？ - bzlm

因为这是现在的一件事 https://github.com/google/robotstxt - vhs

3个回答

1

我可以确认Google不尊重机器人排除文件。这是我的文件，我在将此来源放在线之前创建了它：

https://git.habd.as/robots.txt

并且文件的完整内容如下：

User-agent: *
Disallow:

User-agent: Google
Disallow: /

谷歌仍然对其进行了索引。

自去年三月取消我的帐户后，我不再使用谷歌，也从未将此网站添加到除Yandex之外的Webmaster控制台，这让我有两个假设：

谷歌正在抓取Yandex
谷歌不尊重机器人排除标准

我还没有检查过我的日志，但我会去查找，我的假设是我会发现谷歌蜘蛛在那里行为不端。

- vhs

1

如果您刚刚添加了这个，那么您需要等待一段时间 - 它不是即时的 - 直到Googlebot返回重新爬取网站并查看robots.txt文件，否则该网站仍将存在于他们的数据库中。

我怀疑这与此无关，但您可能希望将您的“Agent”更改为“agent” - Google很可能对此不区分大小写，但完全按照标准操作不会有害。

- Marc B

谢谢。但是该文件自2008年以来一直存在，所以现在应该已经生效了；）大写的“Agent”可能是Google不尊重它的原因吗？ - Anders

改变一下也不会有什么损失。然后等待谷歌机器人再次出现。如果它在您的网站上只访问了robots.txt文件，那么您就知道更改已经生效了。 - Marc B

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- earl · Accepted Answer

除了需要等待因为谷歌索引更新需要一些时间之外，还要注意如果有其他网站链接到您的网站，仅使用robots.txt是不足以删除您的网站的。

引用谷歌的支持页面"从Google的搜索结果中删除页面或站点"：

如果该页面仍然存在但您不希望它出现在搜索结果中，请使用robots.txt阻止Google爬取。请注意，在一般情况下，即使URL被robots.txt禁止，如果我们在另一个网站上找到其URL，我们仍然可能会索引该页面。然而，如果该页面被robots.txt阻止并且有一个活动的移除请求，则Google不会索引该页面。

上述文档中还提到了一种可能的替代解决方案：

或者，您可以使用noindex元标记。当我们在页面上看到这个标记时，即使其他页面链接到它，Google也会完全从我们的搜索结果中删除该页面。如果您没有直接访问网站服务器的权限，这是一个很好的解决方案。（您需要能够编辑页面的HTML源代码）。