我正在使用以下代码使用JSoup解析HTML:
Jsoup.parse(html).wholeText()
我的HTML示例将包含以下文本:
最初的回答
<p>some text</p><br /><br>later
然而,JSoup的输出总是:
最初的回答
。some textlater
我想要的输出结果是这样的:
some text
later
如果我想保留空格,除了使用wholeText之外,是否有其他方法?我找到了以下类似的stackoverflow问题:
如何在使用jsoup将html转换为纯文本时保留换行符?
然而,那个问题的问题是所有用户都想使用字符串替换或正则表达式来查找br或其他特定标记。我正在寻找更通用的东西(像一个HTML解析器,它删除HTML标签同时保留换行符和其他空格 - 如果有更好的Java库,它不必是jsoup)。