BeautifulSoup无法找到标签

Question

BeautifulSoup无法找到标签

3

我正在尝试爬取这个页面以及类似此页面的所有页面。我一直在使用BeautifulSoup（也尝试过lxml，但安装存在问题）。我正在使用以下代码：

value = "http://www.presidency.ucsb.edu/ws/index.php?pid=99556"
desiredTag = "span"
r = urllib2.urlopen(value)
data = BeautifulSoup(r.read(), 'html5lib') 
displayText = data.find_all(desiredTag)
print displayText
displayText = " ".join(str(displayText))
displayText = BeautifulSoup(displayText, 'html5lib')

由于某些原因，这并没有拉回 <span class="displaytext">，我也尝试将desiredTag设为p。

我是否漏掉了什么？

- ford prefect

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- alecxe · Accepted Answer

你肯定会体验到使用不同解析器（介绍）所带来的差异，BeautifulSoup 中的 html.parser 和 lxml 对我而言都可以使用：

data = BeautifulSoup(urllib2.urlopen(value), 'html.parser')

证明：

>>> import urllib2
>>> from bs4 import BeautifulSoup
>>> 
>>> url = "http://www.presidency.ucsb.edu/ws/index.php?pid=99556"
>>> 
>>> data = BeautifulSoup(urllib2.urlopen(url), 'html.parser')
>>> data.find("span", class_="displaytext").text
u'PARTICIPANTS:Former Speaker of the House Newt Gingrich (GA);
...