在robots.txt文件中使用Noindex

3

我一直使用robots.txt文件阻止谷歌索引我的网站。最近,我读到了一篇来自谷歌员工的文章,他说你应该使用meta标签来做这件事。这是否意味着Robots.txt不再起作用?由于我正在使用CMS,我的选项非常有限,使用robots.txt文件要容易得多。我的问题是如果我继续使用robots.txt文件而不是meta标签,最糟糕的情况会是什么。


请参考Webmasters上的以下内容:robots.txt中的"Noindex:"如何工作? 未来关于您的网站的非编程问题应该在[Webmasters.se]上提问。 - Stephen Ostermiller
2个回答

2
以下是简单易懂的区别:
- robots.txt文件控制爬行。它指示寻找页面进行爬行的机器人(也称为蜘蛛)“不要进入”某些地方。您将此文件放置在网站的根目录中。 - noindex标签控制索引。它告诉蜘蛛该页面不应被索引。您将此标签放置在相关网页的代码中。
当您需要在目录级别或整个站点上进行控制时,请使用robots.txt文件。但请记住,机器人不必遵循这些指令。大多数机器人会遵循,例如Googlebot,但最好将任何高度敏感信息保留在站点的公共可访问区域之外。
与robots.txt文件一样,noindex标签将从搜索结果中排除页面。页面仍将被爬行,但不会被索引。在您需要在单个页面级别进行控制时,请使用这些标签。
关于爬行和索引之间的区别:通过蜘蛛爬行是搜索引擎的蜘蛛跟踪您的网站的方式;爬行的结果存储在搜索引擎的索引中。将此信息存储在索引中可以加快相关搜索结果的返回速度-而不是扫描与搜索相关的每个页面,搜索索引(较小的数据库)以优化速度进行搜索。
如果没有索引,搜索引擎将查看与搜索词相关的每个数据或信息位,而我们都有时间制作和吃掉几个三明治,等待搜索结果显示。索引使用蜘蛛来保持其数据库最新。
以下是标签示例:
<meta name="robots" content="noindex,follow"/>

现在你已经阅读并理解了上述信息,我相信你能够自己回答你的问题 ;)

1

事实上,有GoogleBot的机会可以使用:

  • Noindex
  • Nofollow
  • Crawl-delay

但是根据GoogleBlog-News的报道,从2019年9月开始,他们将不再支持这些(仅占0.001%使用率)命令。因此,为了确保未来的安全性,您应该只在页面上使用meta标签。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接