我试图用Python编写网络爬虫代码。 我想检查我即将爬行的页面是否是HTML页面,而不是像.pdf / .doc / .docx等页面。 我不想使用扩展名.html来检查它,因为像asp,aspx或像http://bing.com/travel/这样的页面没有显式的.html扩展名,但它们是HTML页面。在Python中有没有好的方法?
我试图用Python编写网络爬虫代码。 我想检查我即将爬行的页面是否是HTML页面,而不是像.pdf / .doc / .docx等页面。 我不想使用扩展名.html来检查它,因为像asp,aspx或像http://bing.com/travel/这样的页面没有显式的.html扩展名,但它们是HTML页面。在Python中有没有好的方法?
这只从服务器获取标题:
import urllib2
url = 'http://www.kernel.org/pub/linux/kernel/v3.0/testing/linux-3.7-rc6.tar.bz2'
req = urllib2.Request(url)
req.get_method = lambda: 'HEAD'
response = urllib2.urlopen(req)
content_type = response.headers.getheader('Content-Type')
print(content_type)
打印
application/x-bzip2
从中你可以得出这不是HTML。你可以使用
'html' in content_type
编写程序测试内容是否为HTML(或可能是XHTML)。
如果您希望更加确定内容是否为HTML,可以下载内容并尝试使用HTML解析器(例如lxml或BeautifulSoup)进行解析。
请注意不要像下面这样使用requests.get
:
import requests
r = requests.get(url)
print(r.headers['content-type'])
这需要很长时间,我的网络监视器显示持续的负载,让我相信这是在下载整个文件,而不仅仅是头部信息。
另一方面,
import requests
r = requests.head(url)
print(r.headers['content-type'])
仅获取头部信息。
不要被标准库困扰,而是尝试使用requests。
>>> import requests
>>> r = requests.get("http://www.google.com")
>>> r.headers['content-type']
'text/html; charset=ISO-8859-1'
<DOCTYPE>
或<html>
开头) - Henry Keiter