我需要一个提醒来完成这个脚本。
我正在爬取一个新闻通讯网站以获取特定的子字符串。目的是解析页面中称为提到的公司..的特定部分,并将每个公司的名称放入列表数据类型中。
目前为止,以下是我已经完成的内容,它可以正常工作,但只能获取第一项:
from bs4 import BeautifulSoup as bs4
import requests
import re
url = 'http://news.hipsternomics.com/issues/how-much-is-your-personal-data-worth-on-the-black-market-148489'
r = requests.get(url).text
soup = bs4(r, 'html.parser')
companies = []
for elem in soup(text=re.compile(r'^(.*?Companies mentioned\b)')):
companies.append(elem)
预期结果:
- 我想将“提到的公司”列入列表,如下所示:
[谷歌、苹果、特斯拉、耐克、TJX、罗斯、L品牌、多米诺骨牌]
同时也欢迎采用其他方式来改进正则表达式函数,以捕获类似于“本期提到的公司:”或“提到的公司:”等异常情况,如此处所见:这里。 谢谢。