有许多HTML页面的结构都是由这样一系列组成:
<p>
<b> Keywords/Category:</b>
"keyword_a, keyword_b"
</p>
这些页面的地址像这样:https://some.page.org/year/0001,https://some.page.org/year/0002等。
我如何从每个页面中分别提取关键词?我尝试使用BeautifulSoup,但没有成功。我只编写了一个程序来打印组标题(在
<b>
和</b>
之间)。from bs4 import BeautifulSoup
from urllib2 import urlopen
import re
html_doc = urlopen('https://some.page.org/2018/1234').read()
soup = BeautifulSoup(html_doc)
for link in soup.find_all('a'):
print 'https://some.page.org'+link.get('href')
for node in soup.findAll('b'):
print ''.join(node.findAll(text=True))
p
标签里,但是你的代码选择了b
标签。我认为你应该选择p
标签。 - t.m.adam