使用Python中的LXML解析HTML

3
我正在尝试解析一个网站。
blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah 

(有许多这样的元素,我希望它们以一些分词形式出现)。不幸的是,HTML非常大且有点复杂,因此尝试向下爬树可能需要一些时间来整理嵌套元素。是否有一种简单的方法来检索它们?

谢谢!


1
实际上问题是什么?您可以使用.attrib属性获取元素属性,例如elem.attrib['href'] - Martijn Pieters
如果lxml在源代码上出现问题,请尝试使用BeautifulSoup。 - Jonas Schäfer
网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接