为什么Chrome会请求robots.txt文件？

Question

为什么Chrome会请求robots.txt文件？

9

我在日志中注意到Chrome请求了一个robots.txt，并且与我预期的一样请求了所有内容。

[...]
2017-09-17 15:22:35 - (sanic)[INFO]: Goin' Fast @ http://0.0.0.0:8080
2017-09-17 15:22:35 - (sanic)[INFO]: Starting worker [26704]
2017-09-17 15:22:39 - (network)[INFO][127.0.0.1:36312]: GET http://localhost:8080/  200 148
2017-09-17 15:22:39 - (sanic)[ERROR]: Traceback (most recent call last):
  File "/usr/local/lib/python3.5/dist-packages/sanic/app.py", line 493, in handle_request
    handler, args, kwargs, uri = self.router.get(request)
  File "/usr/local/lib/python3.5/dist-packages/sanic/router.py", line 307, in get
    return self._get(request.path, request.method, '')
  File "/usr/local/lib/python3.5/dist-packages/sanic/router.py", line 356, in _get
    raise NotFound('Requested URL {} not found'.format(url))
sanic.exceptions.NotFound: Requested URL /robots.txt not found

2017-09-17 15:22:39 - (network)[INFO][127.0.0.1:36316]: GET http://localhost:8080/robots.txt  404 42
[...]

我正在运行Chromium：

60.0.3112.113（开发版）基于Ubuntu构建，在Ubuntu 16.04（64位）上运行

这是为什么呢？有人可以详细说明一下吗？

- zython

1

请注意，它是 robots.txt 而不是 robot.txt。 - unor

你能重现这个问题吗？还是说这只是你在日志中看到的东西？ - Josh Lee

我已经换了浏览器，但是通过重启本地服务器并发送请求，我可以复现这个问题。 - zython

你有没有像这样的元标签：<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">？ - Phil

你有没有可以代替你发起请求的Chrome扩展程序？当请求发生时，您有在Chrome DevTools的网络选项卡上进行检查吗？ - Daniel

2

@MondKin，这是一段时间以前的事情了，我之前没有考虑过（我真傻）。今天我检查了一下可以使用的扩展程序，并确定Wappalyzer是罪魁祸首。 https://github.com/AliasIO/Wappalyzer/blob/538e843b0dbe9816ef52b14386452aa725b1c054/src/drivers/webextension/js/driver.js#L273 如果你把这个放在答案里，我会给你奖励。 - zython

2个回答

0

对于Chrome浏览器，存在一个插件（SeeRobots），可以检查robots.txt是否定义了搜索引擎等的规则 - 也许您已经安装了这个插件？

https://chrome.google.com/webstore/detail/seerobots/hnljoiodjfgpnddiekagpbblnjedcnfp?hl=de

- Christoph Bimminger

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Daniel · Accepted Answer

有可能并不是您的网站在请求robots.txt文件，而是其中一个Chrome扩展程序（比如您提到的Wappalizer），这就解释了为什么只在Chrome中出现。

要确定这一点，您可以检查Chrome DevTools的网络选项卡，查看请求的发起时间以及是否来自您的脚本。