使用urllib检索所有标头数据

Question

使用urllib检索所有标头数据

3

我已经爬取了很多网站，经常会想知道为什么在Firebug中显示的响应头和urllib.urlopen(url).info()返回的响应头之间经常不同，因为Firebug报告了更多的标头。

今天我遇到了一个有趣的问题。我通过跟随“搜索URL”来爬取网站，该网站在重定向到最终页面之前完全加载（返回200状态代码）。执行爬取的最简单方法是返回Location响应标头并进行另一次请求。然而，当我运行'urllib.urlopen(url).info()时，特定的标头是不存在的。

以下是区别：

Firebug标头：

Cache-Control : no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Connection : keep-alive
Content-Encoding : gzip
Content-Length : 2433
Content-Type : text/html
Date : Fri, 05 Oct 2012 15:59:31 GMT
Expires : Thu, 19 Nov 1981 08:52:00 GMT
Location : /catalog/display/1292/index.html
Pragma : no-cache
Server : Apache/2.0.55
Set-Cookie : PHPSESSID=9b99dd9a4afb0ef0ca267b853265b540; path=/
Vary : Accept-Encoding,User-Agent
X-Powered-By : PHP/4.4.0

我的代码返回的头信息：

Date: Fri, 05 Oct 2012 17:16:23 GMT
Server: Apache/2.0.55
X-Powered-By: PHP/4.4.0
Set-Cookie: PHPSESSID=39ccc547fc407daab21d3c83451d9a04; path=/
Expires: Thu, 19 Nov 1981 08:52:00 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma: no-cache
Vary: Accept-Encoding,User-Agent
Content-Type: text/html
Connection: close

这是我的代码：

from BeautifulSoup import BeautifulSoup
import urllib
import psycopg2
import psycopg2.extras
import scrape_tools


tools = scrape_tools.tool_box()
db = tools.db_connect()

cursor = db.cursor(cursor_factory = psycopg2.extras.RealDictCursor)
cursor.execute("SELECT data FROM table WHERE variable = 'Constant' ORDER BY data")

for row in cursor:
    url = 'http://www.website.com/search/' + row['data']    
    headers = {
            'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
            'Accept-Encoding' : 'gzip, deflate',
            'Accept-Language' : 'en-us,en;q=0.5',
            'Connection' : 'keep-alive',
            'Host' : 'www.website.com',
            'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:15.0) Gecko/20100101 Firefox/15.0.1'
            }
    post_params = {
                'query' : row['data'],
                'searchtype' : 'products'
                }
    post_args = urllib.urlencode(post_params)
    soup = tools.request(url, post_args, headers)

    print tools.get_headers(url, post_args, headers)

请注意：scrape_tools是我自己编写的一个模块。该模块中用于获取头部信息的代码（基本上）如下：

class tool_box:
    def get_headers(self, url, post, headers):
        file_pointer = urllib.urlopen(url, post, headers)
        return file_pointer.info()

有什么原因导致这种差异吗？我的代码中是否有愚蠢的错误？如何检索缺失的标题数据？我对Python相当新，所以请原谅任何愚蠢的错误。

提前感谢。非常感谢任何建议！

还有……很抱歉代码太长了 =\

- That1Guy

BS用于解析HTML/XML，而不是HTTP头。 - user647772

我的目标不是使用BS解析HTTP头。我的问题是如何检索标题以继续进行网页抓取和解析HTML... - That1Guy

这两个响应的状态码是什么？ - Lukas Graf

我刚刚注意到你已经观察到了重定向并提到了它，尽管我读了几遍问题，但我不知何故错过了这一点 :) - Lukas Graf

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Lukas Graf · Accepted Answer

您得到的两个请求的响应不同。例如，对于Firefox请求的响应包含一个Location:头，因此它可能是一个302临时移动或301。这些不包含任何实际的正文数据，而是导致您的Firefox向Location:头中的URL发出第二个请求（urllib不会这样做）。

Firefox响应还使用Connection：keep-alive，而urllib请求被回答为Connection: close。

此外，Firefox响应已经压缩（Content-Encoding : gzip），而urllib则没有。这可能是因为您的Firefox在请求时发送了一个Accept-Encoding: gzip, deflate头。

不要依赖Firebug告诉您HTTP标头（即使它大多数时候都是真实的），而是使用类似wireshark的嗅探器来检查实际传输的内容。

显然，您正在处理两个不同的响应。

这可能有几个原因。首先，Web服务器应该根据客户端发送的Accept-Language、Accept-Encoding等头信息来不同地响应请求。其次，服务器也可能进行一些User-Agent嗅探。

无论哪种情况，使用wireshark捕获您的请求以及使用Firefox的请求，并首先比较请求（而不是头部，而是实际的GET / HTTP/1.0部分）。它们真的一样吗？如果是，继续比较请求头并开始手动设置相同的头以进行urllib请求，直到找出哪些头信息会产生影响。