我现在正在使用Beautiful Soup来解析网页,听说它非常出名和好用,但似乎它不能正常工作。
这是我所做的:
import urllib2
from bs4 import BeautifulSoup
page = urllib2.urlopen("http://www.cnn.com/2012/10/14/us/skydiver-record-attempt/index.html?hpt=hp_t1")
soup = BeautifulSoup(page)
print soup.prettify()
我认为这很简单。我打开网页并将其传递给beautifulsoup。但是这就是我得到的结果:
警告(来自warnings模块):
文件“C:\ Python27 \ lib \ site-packages \ bs4 \ builder_htmlparser.py”,第149行
“Python内置的HTMLParser无法解析给定的文档。 这不是Beautiful Soup的错误。 最好的解决方案是安装外部解析器(lxml或html5lib),并使用该解析器使用Beautiful Soup。 有关帮助,请参见http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser。”
...
HTMLParseError:错误的结束标记:u'</"+"script>',位于第634行,第94列。
我认为CNN网站应该设计良好,所以我不太确定发生了什么。 有人有关于此的想法吗?