我想读取 HTML 网站并提取数据,例如,我想读取公司过去 5 年的每股收益(EPS)。基本上,我可以读取它并可以使用 BeautifulSoup 或 html2text 创建一个大文本块。然后,我想搜索文件,我一直在使用 re.search,但似乎无法正常工作。这是我要访问的行:
EPS(基本)\ n13.4620.6226.6930.1732.81\n\n
所以我想创建一个名为 EPS 的列表:[13.46, 20.62, 26.69, 30.17, 32.81]。
谢谢任何帮助。
EPS(基本)\ n13.4620.6226.6930.1732.81\n\n
所以我想创建一个名为 EPS 的列表:[13.46, 20.62, 26.69, 30.17, 32.81]。
谢谢任何帮助。
from stripogram import html2text
from urllib import urlopen
import re
from BeautifulSoup import BeautifulSoup
ticker_symbol = 'goog'
url = 'http://www.marketwatch.com/investing/stock/'
full_url = url + ticker_symbol + '/financials' #build url
text_soup = BeautifulSoup(urlopen(full_url).read()) #read in
text_parts = text_soup.findAll(text=True)
text = ''.join(text_parts)
eps = re.search("EPS\s+(\d+)", text)
if eps is not None:
print eps.group(1)