有没有办法防止Googlebot索引页面的某些部分?

13

是否有可能对Google指令进行微调,使其忽略页面的一部分,但仍然索引剩余部分?

我们遇到了几个不同的问题,这些问题可以通过这种方式得到帮助,例如:

  • 在显示来自外部源的内容的页面上的RSS提要/新闻滚动条文本
  • 输入联系电话等详细信息的用户希望将它们显示在站点上,但不希望它们在谷歌搜索中被搜到

我知道以上两种情况都可以通过其他技术解决(例如使用JavaScript编写内容),但想知道是否有人知道Google是否已经提供了更干净的选项?

我一直在研究这个问题,发现了与googleongoogleoff标签有关的内容,但这些似乎只适用于Google搜索设备。

是否有人知道是否有类似的标签可以让Googlebot遵循?

编辑:为了澄清,我不想走欺骗的路线/向Google提供不同的内容,这就是我想在这里寻求"合法"解决方案的原因。

8个回答

10

你所要求的实际上是做不到的,Google 要么抓取整个页面,要么就不抓取。

不过你可以使用一些巧妙的技巧,比如将不想被索引的页面部分放入一个 iFrame 中,并在 robots.txt 文件中请求 Google 不要索引该 iFrame。


1
简而言之,不行 - 除非您使用谷歌不鼓励的隐匿技术。

1

9
遗憾的是,这仅适用于Google搜索设备,而不适用于公共的Google网站。 - Phrogz

0
发现了一个有用的资源,可以使用某些重复内容,并防止搜索引擎索引此类内容。
<p>This is normal (X)HTML content that will be indexed by Google.</p>

<!--googleoff: index-->

<p>This (X)HTML content will NOT be indexed by Google.</p>

<!--googleon: index>

-1
在您的服务器上使用PHP或ASP通过IP检测搜索机器人。然后将落入该列表的IP地址提供给您希望被索引的页面版本。在那个搜索引擎友好版本的页面中,使用规范链接标签来指定您不想被索引的页面版本。
这样,只有您希望被索引的内容的页面将仅按地址索引,而只有您希望被索引的内容将被索引。这种方法不会让您被搜索引擎封锁,完全安全。

1
正如在另一条评论中所指出的那样,这可能会导致您的网站被从谷歌中删除。 - Phrogz

-1

是的,你绝对可以通过创建自定义 robots.txt 文件来阻止 Google 索引你网站的某些部分,并写下你不想索引的部分,比如 wpadmins 或特定的帖子或页面。因此,你可以轻松地创建这个 robots.txt 文件。在创建之前,请检查你的网站 robots.txt 的示例,例如 www.yoursite.com/robots.txt。


-2

有针对机器人的元标签,还有 robots.txt 文件,可以限制访问某些目录。


元标签和robots.txt都允许或限制文件级别的访问,我想知道是否可以允许页面被索引,但阻止其中某个部分的访问。 - ConroyP

-2
所有搜索引擎都会索引或忽略整个页面。实现您想要的唯一可能的方法是:
(a) 拥有相同页面的两个不同版本
(b) 检测所使用的浏览器
(c) 如果是搜索引擎,则提供第二个版本的页面。 此链接可能会有所帮助。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接