我一直在尝试一些网络爬虫,发现这个标签中有一些有趣的数据:
<script type="application/ld+json">
我已经使用Beautiful Soup成功地分离出了那个标签。
html = urlopen(url)
soup = BeautifulSoup(html, "lxml")
p = soup.find('script', {'type':'application/ld+json'})
print p
但是我无法使用数据或从该标签中提取任何数据。
如果我尝试使用正则表达式来获取其中的一些内容,我会得到:
TypeError: expected string or buffer
如何从那个script标签中获取数据并像使用字典或字符串一样使用它?顺便说一句,我正在使用Python 2.7。