使用Python解析带有<br>标签的HTML

3

我正在使用lxml解析一些HTML。HTML如下:

<td valign="top">first text field<br>second text field</td>

不,换行标签在后面没有关闭。

element.text 返回其中的第一个文本,而 element.xpath('string()') 返回两个文本,且没有 \n 或其他分隔符。

我想如果我只想要第二个文本字段,可以进行两次解析并从前者中“减去”后者,但这不是理想的。我认为必须有其他方法可以获取第二个文本字段,但我却被难住了。

1个回答

2

我自己找到了答案。element.xpath('text()')返回的是包括我要查找的两个元素的数组。


1
根据SO的说法,@felipsmartins还需要等待2天。 - AutomaticStatic

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接