robots.txt URL格式

6
根据此页面的说法,无论是User-agent还是Disallow行都不支持globbing和正则表达式。
然而,我注意到stackoverflow robots.txt在URL中包含像*和?这样的字符。这些是否被支持?
另外,一个URL是否包含尾部斜杠有区别吗?或者这两种情况是等价的?
Disallow: /privacy
Disallow: /privacy/

取决于机器人,我猜。 - x539
1个回答

10
您的第二个问题,两者并不等同。 /privacy 将阻止任何以 /privacy 开头的内容,包括类似于 /privacy_xyzzy 这样的内容。而另一方面,/privacy/ 则不会阻止这个。
原始的 robots.txt 不支持通配符或者模糊匹配。然而许多爬虫程序已经实现了这个功能。Google、Microsoft和Yahoo在几年前达成了一个标准。请参见http://googlewebmastercentral.blogspot.com/2008/06/improving-on-robots-exclusion-protocol.html 了解详细信息。
我所知道的大多数主要搜索引擎都支持这个 "标准"。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接