假设我有一个像这样的HTML片段:
<p> <span> foo </span> <em> bar <a> foobar </a> baz </em> </p>
我想要从中提取的内容是:
foo bar foobar baz
所以我的问题是:如何从html中剥离所有包装标签,并按与html中相同的顺序仅获取文本内容?
正如您在标题中看到的,我想使用jsoup进行解析。重点提示一下,以下为强调的html示例(请注意 'á' 字符):
<p><strong>Tarthatatlan biztonsági viszonyok</strong></p>
<p><strong>Tarthatatlan biztonsági viszonyok</strong></p>
我想要的是什么:
Tarthatatlan biztonsági viszonyok
Tarthatatlan biztonsági viszonyok
这个HTML不是静态的,通常我只想要一个通用HTML片段中的所有文本以解码的人类可读形式显示,带有换行符。
fragment.text()
吗? - Blender