我正在尝试从以下链接中抓取数据:
http://www.treasurydirect.gov/NP/BPDLogin?application=np
该链接包含一个元刷新(meta refresh)。
我正在使用带有CURLOPT_FOLLOWLOCATION设置为true的curl_exec。
在phpinfo()中,我确认safe mode和basedir未设置。然而,CURLOPT_FOLLOWLOCATION仍然无法正常工作。这是我的代码:
我正在使用带有CURLOPT_FOLLOWLOCATION设置为true的curl_exec。
在phpinfo()中,我确认safe mode和basedir未设置。然而,CURLOPT_FOLLOWLOCATION仍然无法正常工作。这是我的代码:
<?php
error_reporting(E_ALL);
$url = 'http://www.treasurydirect.gov/NP/BPDLogin?application=np';
// READ THE WEB PAGE
$ch = curl_init();
curl_setopt($ch,CURLOPT_URL,$url);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,20);
curl_setopt($ch,CURLOPT_FOLLOWLOCATION,true);
curl_setopt($ch,CURLOPT_COOKIEFILE,"cookies.txt");
curl_setopt($ch,CURLOPT_COOKIEJAR,"cookies.txt");
curl_error($ch);
$htm = curl_exec($ch);
curl_close($ch);
// MAKE OUR OUTPUT EASY TO READ
echo "<pre>";
// GET THE TITLE
$txt = strip_tags($htm, '<title>');
$rgx
= '#' // REGEX DELIMITER - START
. '\<title\>' // TITLE TAG WITH ANGLE BRACKETS ESCAPED - START
. '(.*?)' // GROUP OF ANYTHING
. '\</title\>' // TITLE TAG WITH ANGLE BRACKETS ESCAPED - END
. '#' // REGEX DELIMITER - END
. 'is' // CASE-INSENSITIVE, SINGLE LINE
;
preg_match($rgx, $txt, $arr);
// DISPLAY THE TITLE
echo
'<strong>'
. $arr[1]
. '</strong>'
. PHP_EOL
. PHP_EOL
;
// SHOW THE PAGE SOURCE
$src = htmlentities($htm);
echo $src;
?>