WGET、Cookies和302重定向

3

我想使用WGET从某个网站的会员区下载一些图片。该网站受到密码保护。我已经成功登录并保存了cookies。然而,由于302重定向,我仍然无法下载图片。能否有人帮我看看这个问题?非常感谢。

wget --load-cookies=examplecookies  http://members.example.com/membersarea/0004.jpg
--2010-12-18 18:58:50--  http://members.example.com/membersarea/0004.jpg
Resolving members.example.com... 12.34.56.78
Connecting to members.example.com|12.34.56.78|:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: /login.aspx?ReturnUrl=%2fmembersarea%2f0004.jpg [following]
--2010-12-18 18:58:50--  http://members.example.com/login.aspx?ReturnUrl=%2fmembersarea%2f0004.jpg
Reusing existing connection to members.example.com:80.
HTTP request sent, awaiting response... 302 Found
Location: /membersarea/default.aspx [following]
--2010-12-18 18:58:50--  http://members.example.com/membersarea/default.aspx
Reusing existing connection to members.example.com:80.
HTTP request sent, awaiting response... 200 OK
Length: 61898 (60K) [text/html]
Saving to: `default.aspx'

100%[===================================================================================>] 61,898      --.-K/s   in 0.1s

2010-12-18 18:58:51 (572 KB/s) - `default.aspx' saved [61898/61898]

default.aspx 是会员区的首页,这意味着我已经成功登录。

我进行了一些谷歌搜索,并添加了 --user-agent="Mozilla/4.0",但仍然无法正常工作:

wget --user-agent="Mozilla/4.0" --load-cookies=examplecookies  http://members.example.com/membersarea/0004.jpg

结果是一样的。
非常感谢!
1个回答

3

我曾经总是在使用wget和cookies时遇到困难(尝试让wget使用我的Mozilla cookies等),所以我转而使用Perl库WWW::Mechanize。它可以为您处理cookies以及您从浏览器中期望的所有通常操作,例如302处理和历史记录。

一个简单的示例,登录网站,抓取所有JPG并单击“下一页”链接进行分页:

use warnings;
use strict;
use WWW::Mechanize;
use File::Slurp;

my $mech = WWW::Mechanize->new;
$mech->get('http://example.com/login') || die;
$mech->submit_form( form_name => 'login_form',
                    fields => { username => 'me',
                                password => 'secret' } ) || die;

while (1) {
   for my $link ($mech->links) {
      my $url = $link->url;
      if ($url =~ /(image_\d+\.jpg)\z/) {
         my $file = $1;
         $mech->get($url);
         File::Slurp::write_file($file, $mech->content);
         $mech->back; # like the browser back button                                
      }
   }
   # look at next page, if any                                                      
   my $result = $mech->follow_link(text_regex => qr/Next/);
   if (!$result) {
      last;
   }
}

1
嗨,我已经通过Flashgot(Firefox插件)的帮助解决了我的问题。方法如下:右键单击图片的URL并选择“Flash got the link”,然后您就可以成功下载图片。然后查看Flashgot的日志,并将cookie信息复制到txt文件中。那就是wget需要的cookie。然后使用带有该cookie的wget,我成功地下载了文件。非常感谢您的帮助。我以后可能会使用Perl。 :) - DocWiki

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接