我有一个如下的XML文件
我想获取“热门巴黎分类”下的所有链接。我使用了类似于这样的代码:
<li class="expandSubItem">
<span class="expandSubLink">Popular Neighborhoods</span>
<ul class="secondSubNav" style="top:-0.125em;">
<li class="subItem">
<a class="subLink" href="/Hotels-g187147-zfn7236765-Paris_Ile_de_France-Hotels.html">Quartier Latin Hotels</a>
</li>
</ul>
</li>
<li class="expandSubItem">
<span class="expandSubLink">Popular Paris Categories</span>
<ul class="secondSubNav" style="top:-0.125em;">
<li class="subItem">
<a class="subLink" href="/HotelsList-Paris-Cheap-Hotels-zfp10420.html">Paris Cheap Hotels</a>
</li>
</ul>
</li>
我想获取“热门巴黎分类”下的所有链接。我使用了类似于这样的代码:
//li//a/@href/following::span[text()='Popular Singapore Categories']
,但是没有结果。有什么办法可以得到正确的结果吗?下面是我编写的Python代码片段。t_url = 'https://www.tripadvisor.com/Tourism-g187147-Paris_Ile_de_France-Vacations.html'
page = requests.get(t_url, timeout=30)
tree = html.fromstring(page.content)
links = tree.xpath('//li[span="Popular Paris Categories"]//a/@href')
print links
//li[span='Popular Paris Categories']/ul/li/a/@href
- har07span
和ul
处于同一级别,这并不重要。请参见演示(或在您喜欢的任何XPath测试器中尝试):http://xpatheval.apphb.com/3849byFx2 - har07