用谷歌搜索HTML源代码?

80
我有几个网站,但不记得在哪里写了一些代码。由于我的页面已被 Google 索引,我想知道谷歌是否提供搜索 HTML 源代码 / 标记本身的功能?而不仅仅是在页面的可视化呈现部分进行搜索?
谢谢。

代码在客户端还是服务器端? - mjimcua
非常容易与http://nerdydata.com - d-_-b
有时候我真的不太理解这里的管理人员。将得票率很高的问题在11年后关闭? - Peter VARGA
2个回答

44
我在旅途中发现了以下资源(一些已经在上面提到):
HTML标记为中心的搜索引擎
- Nerdydata
我还想加入以下内容:
巨大的网站爬行数据归档
- Common Crawl - “多年免费的网页数据,帮助改变世界”(超过250TB +)
我们如何分析这个爬行数据?
要想开始分析部分庞大的数据,请参见Big Data / Map-reduce类型框架的链接。
谷歌列出了一些使用Apache的Spark项目来分析Common Crawl的dump的想法。要了解Common Crawl使用的文件格式,请参考以下内容:
  • 准备好开始使用Common Crawl了吗?
  • 浏览WARC文件格式(由Common Crawl提供)
这篇文章《在S3上访问Common Crawl数据集》介绍了一种低成本的方法来访问Common Crawl超过250TB的数据转储,而不需要将数据传输到亚马逊的AWS/S3网络之外。当然,这假定你打算使用一些组合AWS/EC2/S3等来分析爬行数据。
最后,Patrick Durusau维护着一些有趣的与Common Crawl使用相关的博客页面
个人认为这个主题很有趣,建议我们趁热打铁获取这些爬行数据!;-)

在我的情况下,网站引擎正在泄露特定域名的私有URL (我确定这不是来自用户)。我该如何搜索单个域名的源代码?(以便找到泄漏来源) - user2284570
假设您可以访问类Unix的Bash控制台(在Windows上尝试“Git Bash”,unxutils或cygwin),您可以使用基于各种wget/curl/xidel/grep/awk组合的解决方案。例如,此SO帖子包含各种解决方案,这是我使用的Google搜索 - Big Rich
这个网站有数PB大小,包含数十亿个URL。几乎所有页面都不是静态的。你有比自己爬取更好的解决方案吗? - user2284570
好的,实际上我与该公司无关,但他们没有回复我发送到他们专门用于报告安全问题的电子邮件(当时我非常疲惫,写错了一些东西,我担心我让他们感到厌烦)。但这应该私下讨论。 - user2284570
有没有任何源代码可以让我在其中放置源站点(要扫描的)+目标站点链接的地方? - Divya
显示剩余2条评论

14
您可以尝试使用PublicWWW进行源码/标记搜索。它允许在超过1.67亿个网站的网页源代码中查找任何HTML、JavaScript、CSS和纯文本内容。
使用PublicWWW,您可以:
  • 通过他们共享的唯一HTML代码(例如小部件和发布者ID)查找相关网站。

  • 识别使用特定图像或徽章的网站。

  • 查找使用您的主题的其他网站。
  • 识别提到您的网站。
  • 查找竞争对手的合作伙伴。
  • 确认竞争对手个人合作或互动的网站。
  • 查找使用库或平台的参考。
  • 在网络上查找代码示例。
  • 找出谁在其网站上使用了哪些JS小部件。
  • ......
当然,您不仅可以查找使用某些代码/标记片段的您的网站。

3
值得注意的是,仅免费显示前100万个网站的信息。要查看前300万个网站的信息,需要注册登录。剩下的则需要付费。此外,显示的结果仅包含域名而不是完整的URL。 - glebm
这个页面坏了吗?我不介意为获取信息付费,但是在尝试购买时,所有项目都显示“计划不可用”,有人知道这个页面发生了什么事吗?已经持续了大约4个月了。 - John Balvin Arias

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接