如何使用PHP检测网络爬虫/蜘蛛?

8

如何使用PHP检测网络爬虫/蜘蛛?

我目前正在开发一个项目,需要跟踪每个网络爬虫的访问。
我知道应该使用HTTP_USER_AGENT,但我不确定如何为此目的格式化代码,而且我知道用户代理可以很容易地更改,因此我还想知道是否有可能添加一些参数以避免欺骗?

以下是我尝试做的示例代码。

<?php
$user_agent = $_SERVER['HTTP_USER_AGENT'];
if (strpos( $user_agent, 'Google') !== false)
{
echo "Googlebot is here";
}
?>

感谢您的选择。
谢谢

当您检查Web服务器日志文件并从单个IP或子网中短时间内看到许多请求时,您可以轻松找到爬虫。大多数搜索引擎不会修改其爬虫以使其像浏览器一样操作。 - Thomas Nordquist
这并不是真的,因为你可以将HTTP_USER_AGENT与REMOTE_ADDR结合起来使用,例如,googlebot总是使用主机名googlebot.com进行爬行。但我不知道如何为此设置脚本。问候Dennis - Squeeze
如果您不希望您的页面被爬取,请使用robots.txt文件。至少有一些网络爬虫会尊重robots.txt文件。http://de.wikipedia.org/wiki/Robots_Exclusion_Standard - Thomas Nordquist
我希望可以爬取到这个页面,但只是想要追踪它 :) - Squeeze
3个回答

18
根据验证Googlebot的说明:
通过进行反向DNS查找,验证名称是否在googlebot.com域中,并使用该googlebot名称进行前向DNS查找,您可以验证访问您服务器的机器人是否真的是Googlebot(或其他Google用户代理)。如果您担心垃圾邮件发送者或其他捣乱分子正在声称是Googlebot访问您的站点,这将非常有用。
例如:
host 66.249.66.1 1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
host crawl-66-249-66-1.googlebot.com crawl-66-249-66-1.googlebot.com has address 66.249.66.1 Google不会发布网站管理员白名单IP地址的公共列表。这是因为这些IP地址范围可能会更改,从而对已硬编码这些地址的任何网站管理员造成问题。识别Googlebot访问的最佳方法是使用用户代理(Googlebot)。
您可以执行反向DNS查找:
function validateGoogleBotIP($ip) {
    $hostname = gethostbyaddr($ip); //"crawl-66-249-66-1.googlebot.com"

    return preg_match('/\.google(bot)?\.com$/i', $hostname);
}

if (strpos($_SERVER['HTTP_USER_AGENT'], 'Google') !== false) {
    if (validateGoogleBotIP($_SERVER['REMOTE_ADDR'])) {
        echo 'It is ACTUALLY google';
    } else {
        echo 'Someone\'s faking it!';
    }
} else {
    echo 'Nothing to do with Google';
}

正是我所寻找的。非常感谢您抽出时间来帮助我! - Squeeze
@Squeeze 不用谢。它应该可以工作(如果不能,可能是您的主机不允许DNS查找)。例如,codepad.org无法让我创建此演示,因为它无法查找主机名。然而,这可能只是他们的沙盒问题。 - h2ooooooo
我目前正在VPS上托管我的网站,因此如果DNS查找出现任何错误,我只能责怪自己:p 再次感谢 :) - Squeeze
1
在研究这个主题时,我发现了这个解决方案。简单易行,谢谢 - 我应该提到,谷歌说返回的主机名可以匹配googlebot.com或google.com。“验证域名是googlebot.com还是google.com。” - Lars Koudal
假设我想检测大多数搜索引擎,我是否需要像您对Google机器人所做的那样针对所有其他搜索引擎进行操作,还是有更快的方法? - Fabian Amran
显示剩余2条评论

7

我的网站上的功能百分之百有效,可以检测机器人、爬虫、蜘蛛和复制者。

function isBotDetected() {

    if ( !empty($_SERVER['HTTP_USER_AGENT']) and preg_match('/abacho|accona|AddThis|AdsBot|ahoy|AhrefsBot|AISearchBot|alexa|altavista|anthill|appie|applebot|arale|araneo|AraybOt|ariadne|arks|aspseek|ATN_Worldwide|Atomz|baiduspider|baidu|bbot|bingbot|bing|Bjaaland|BlackWidow|BotLink|bot|boxseabot|bspider|calif|CCBot|ChinaClaw|christcrawler|CMC\/0\.01|combine|confuzzledbot|contaxe|CoolBot|cosmos|crawler|crawlpaper|crawl|curl|cusco|cyberspyder|cydralspider|dataprovider|digger|DIIbot|DotBot|downloadexpress|DragonBot|DuckDuckBot|dwcp|EasouSpider|ebiness|ecollector|elfinbot|esculapio|ESI|esther|eStyle|Ezooms|facebookexternalhit|facebook|facebot|fastcrawler|FatBot|FDSE|FELIX IDE|fetch|fido|find|Firefly|fouineur|Freecrawl|froogle|gammaSpider|gazz|gcreep|geona|Getterrobo-Plus|get|girafabot|golem|googlebot|\-google|grabber|GrabNet|griffon|Gromit|gulliver|gulper|hambot|havIndex|hotwired|htdig|HTTrack|ia_archiver|iajabot|IDBot|Informant|InfoSeek|InfoSpiders|INGRID\/0\.1|inktomi|inspectorwww|Internet Cruiser Robot|irobot|Iron33|JBot|jcrawler|Jeeves|jobo|KDD\-Explorer|KIT\-Fireball|ko_yappo_robot|label\-grabber|larbin|legs|libwww-perl|linkedin|Linkidator|linkwalker|Lockon|logo_gif_crawler|Lycos|m2e|majesticsEO|marvin|mattie|mediafox|mediapartners|MerzScope|MindCrawler|MJ12bot|mod_pagespeed|moget|Motor|msnbot|muncher|muninn|MuscatFerret|MwdSearch|NationalDirectory|naverbot|NEC\-MeshExplorer|NetcraftSurveyAgent|NetScoop|NetSeer|newscan\-online|nil|none|Nutch|ObjectsSearch|Occam|openstat.ru\/Bot|packrat|pageboy|ParaSite|patric|pegasus|perlcrawler|phpdig|piltdownman|Pimptrain|pingdom|pinterest|pjspider|PlumtreeWebAccessor|PortalBSpider|psbot|rambler|Raven|RHCS|RixBot|roadrunner|Robbie|robi|RoboCrawl|robofox|Scooter|Scrubby|Search\-AU|searchprocess|search|SemrushBot|Senrigan|seznambot|Shagseeker|sharp\-info\-agent|sift|SimBot|Site Valet|SiteSucker|skymob|SLCrawler\/2\.0|slurp|snooper|solbot|speedy|spider_monkey|SpiderBot\/1\.0|spiderline|spider|suke|tach_bw|TechBOT|TechnoratiSnoop|templeton|teoma|titin|topiclink|twitterbot|twitter|UdmSearch|Ukonline|UnwindFetchor|URL_Spider_SQL|urlck|urlresolver|Valkyrie libwww\-perl|verticrawl|Victoria|void\-bot|Voyager|VWbot_K|wapspider|WebBandit\/1\.0|webcatcher|WebCopier|WebFindBot|WebLeacher|WebMechanic|WebMoose|webquest|webreaper|webspider|webs|WebWalker|WebZip|wget|whowhere|winona|wlm|WOLP|woriobot|WWWC|XGET|xing|yahoo|YandexBot|YandexMobileBot|yandex|yeti|Zeus/i', $_SERVER['HTTP_USER_AGENT'])
    ) {
        return true; // 'Above given bots detected'
    }

    return false;

} // End :: isBotDetected()

3
$_SERVER['HTTP_USER_AGENT'] 可以在发送请求时被访问者操纵。 - Bu Saeed
Yandex现在有自己的Yandex浏览器。 - ScorpioT1000

0

要正确验证访问者是否来自搜索引擎,您需要更多的内容,而不仅仅是检查易于欺骗的用户代理。

正确的方法是查找IP的主机名,并快速检查它是否与我们知道的搜索引擎爬虫使用的任何主机名匹配。

如果主机名与已知爬虫之一匹配,则查找主机名的IP并查看两者是否匹配。 如果其中一个步骤失败,则表示有虚假的搜索引擎爬虫正在访问。

以下函数接受IP并遵循先前提到的步骤。 它识别百度,必应,谷歌,雅虎和Yandex。

 /**
 * Validate a crawlers IP against the hostname 
 * Warning - str_ends_with() requires PHP 8
 *
 * @param   mixed   $ip 
 * @return  boolean
 */
function validate_crawler_ip( $testip ) {
   $hostname = strtolower( gethostbyaddr( $testip ) );
   $valid_host_names = array(
      '.crawl.baidu.com',
      '.crawl.baidu.jp',
      '.google.com',
      '.googlebot.com',
      '.crawl.yahoo.net',
      '.yandex.ru',
      '.yandex.net',
      '.yandex.com',
      '.search.msn.com',
   );
   $valid_ip = false;
   foreach ( $valid_host_names as $valid_host ) {
     // Using string_ends_with() to make sure the match is in the -end- of the hostname (to prevent fake matches)
     if ( str_ends_with( $hostname, $valid_host ) ) { // PHP 8 function
      $returned_ip = gethostbyname( $hostname );        
      if ( $returned_ip === $testip ) {
        // The looked up IP from the host matches the incoming IP - we have validated!
        return true;
      }
    }
  }
  // No match - not valid crawler
  return false;
}

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接