设置GitHub镜像仓库,避免重复的搜索结果。

6
当我从我的仓库搜索文件时,第一个结果是一个随机的镜像,而官方位置旧URL 301s)甚至官方GitHub镜像都没有出现在搜索结果中。
我知道{{link5:GitHub曾经帮助进行镜像},但我不确定他们是否还在这样做。我们的仓库浏览器或者镜像有问题吗?

官方的GitHub镜像没有"master"分支,这是否重要?另一个镜像是否应该重命名"master"? 我们能否更加小心地进行"Syndicate"操作?我们的GitHub镜像链接回官方镜像,但只是间接地,并且仅从主存储库页面。


现在有一种方法可以向某些存储库添加“镜像”标签,如 https://github.com/GNOME/gnome-desktop 所示。这似乎并不改变规范URL,但我想这是第一步。 - Nemo
2个回答

1
这是一个与搜索引擎优化有关的问题。
您会发现,在随机文件搜索中,您的存储库副本排名比主要存储库更高,原因是它的指标更好。您需要增加更多的反向链接/可见性,不仅针对主要存储库页面,还要针对单个文件。
当搜索operations-puppet时,确实会得到wikimedia github存储库。您设置的单独站点(mediawiki.org)需要更多的反向链接和其他排名指标,以增加其可见性。Github只是一个更具权威性的网站。
如果Github无法协助进行规范链接,那么您将不得不通过其他方法收集反向链接和关注。

1
我认为这是一个期望问题。您说您想要“小心地合作”,但开源软件基本上与此相反——允许任何人在遵守OSS许可证条款的情况下,在您无法控制的任何地方联合使用您的代码。
当您在Google上搜索某些内容时,他们会返回他们认为最权威、最相关的结果,而不一定是原始来源。Google还没有足够聪明,确切知道一条信息的“官方”或“原始”来源是什么,除非使用很多有根据的猜测(首次出现日期、反向链接、站点权威性),这有时可能导致错误答案。
即使Google知道哪个存储库/网页是信息的“官方”来源,它也可能有理由链接到算法认为更“可用”或“新鲜”的替代来源(例如:与废弃的存储库相比,最近更新的存储库,反向链接较少的存储库,只读存档,位于不受欢迎的存储库托管网站上的存储库等)。
如果这是专有代码,解决方案就是在源头或者通过Google DMCA下架非官方的代码副本。但是由于这段代码的许可证明显允许自由复制,你无法控制其转载,而Google认为最有用的结果可能不是官方来源

我们的代码库浏览器或镜像出了问题吗?

据我所知,没有任何理由这样认为。这个排名问题是SEO奇怪世界的经典入门。
我的建议是不要过分担心你项目中随机文件搜索的结果会指向哪里。你的GitHub镜像已经成为了"wikimedia puppet"的最高搜索结果,如果用户需要查看你仓库中任何文件的最新版本,我认为这是他们首先会搜索的。

我认为这不是一个许可问题。即使源代码没有自由许可证,仍然有可能有多个位置提供它的原因,并且可以预期有方法来识别规范位置。 "谨慎合作" 只是 Google 关于重复内容 https://support.google.com/webmasters/answer/66359 和重复整合 https://support.google.com/webmasters/answer/139066 指南中的引用。 - Nemo
@Nemo 虽然专有代码可以在多个位置上可用,但通常只有一个所有者,因此所有者对哪个位置应视为规范具有完全控制权。相比之下,我认为开源软件从定义上来说没有规范位置,因为任何人的分支版本与其他任何人的分支版本一样“有效”,包括原始项目。 - Maximillian Laumeister
@Nemo,以OpenOffice为极端例子,我打赌如果你从那个项目中谷歌一个源代码文件,你可能会找到一个来自LibreOffice仓库的结果,因为它是一个更受欢迎的分支,即使OpenOffice是按照你的定义是“规范”的仓库。然而LibreOffice的结果对于用户可能更有用,这就是为什么谷歌会返回它的原因。 - Maximillian Laumeister
@Nemo 对于专有代码,假设您控制该代码的分发方式,则解决此问题的方法是使用规范链接或“noindex”指令,以防止每个非规范源代码位置出现在Google结果中。但是,当您无法控制源代码在互联网上弹出的位置时,同样无法控制Google索引和认为对用户相关的内容。 - Maximillian Laumeister

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接