使用Python中的LXML解析HTML

Question

使用Python中的LXML解析HTML

3

我正在尝试解析一个网站。

blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah

（有许多这样的元素，我希望它们以一些分词形式出现）。不幸的是，HTML非常大且有点复杂，因此尝试向下爬树可能需要一些时间来整理嵌套元素。是否有一种简单的方法来检索它们？

谢谢！

- user1922956

1

实际上问题是什么？您可以使用.attrib属性获取元素属性，例如elem.attrib['href']。 - Martijn Pieters

如果lxml在源代码上出现问题，请尝试使用BeautifulSoup。 - Jonas Schäfer

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Jon Clements · Accepted Answer

如果你只想要标签的href属性，那么可以使用以下代码：

data = """blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah"""

import lxml.html
tree = lxml.html.fromstring(data)
print tree.xpath('//a/@href')

# ['THIS IS WHAT I WANT']