GitHub Pages和Jekyll内容重复和SEO问题

6

我正在考虑使用GitHub Pages来托管我的博客,并使用Jekyll进行展示。

可以假设,无论我提交什么内容,都会通过Jekyll出现在<yourname>.github.io,以及以更原始的形式出现在https://github.com/<yourname>/<yourname>.github.io。请参阅此页面,其中显示了指向实时站点和用于构建这些站点的源代码存储库的链接

关于SEO的建议表明,在域内和跨域中复制内容是不好的SEO实践。请参见此Google关于重复内容的支持页面和此Moz关于重复问题的页面,两者都提供了可能的解决方案。

我的问题有两个:

  • 在实践中,GitHub Pages中的内容重复是否真的是一个问题?
  • 如果是,如何将类似规范链接或noindex等解决方案应用于GitHub存储库,以便搜索引擎知道您的Jekyll站点是规范站点?

更新:

值得注意的是,我已经将一个“hello world”索引文件上传到我的GitHub Pages存储库,并检查了GitHub页面的源代码。 GitHub源代码已经包含了一个规范链接。

<link rel="canonical" href="https://github.com/guypursey/guypursey.github.io/blob/master/index.html" data-pjax-transient>

我假设每个文件都需要更改这个设置,以便指向 Jekyll 版本的站点,但我在 GitHub 中找不到处理它的设置。
1个回答

8

如果存储库是公共的,使用GitHub Pages与用户和组织时无法避免重复内容。

一般来说,这不应该是一个问题。请查看先前的答案

您有几个选项:

  • Google和其他搜索引擎显然无法访问需要付费计划的私有存储库。
  • 切换到项目页面。这将使用gh-pages分支而不是master分支。由于GitHub的robots.txt只允许搜索引擎爬取主分支并禁止其他分支。因此,如果网站在gh-pages分支中,则会防止Google看到存储库。

感谢您的回复。我有一个付费计划,所以您提供的第一种选项可能适用于我,但我不知道它在 github.io URL 上如何运作(即,是否在私人模式下工作)。今晚我打算仔细阅读之前的答案并尝试这些选项。如果我能让它起作用,我将标记此答案为正确的。 - guypursey
将我的仓库切换为私有似乎并没有影响到我的页面服务,所以这对我来说是可行的!如果我再次将仓库设为公共,我会考虑按照您建议的切换分支或切换到项目页面。感谢您的帮助! - guypursey

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接