JSoup元素去除空格的整个文本

Question

3

我正在使用以下代码使用JSoup解析HTML：

Jsoup.parse(html).wholeText()

我的HTML示例将包含以下文本：

最初的回答

<p>some text</p><br /><br>later

然而，JSoup的输出总是：

最初的回答

。

some textlater

我想要的输出结果是这样的：

some text

later

如果我想保留空格，除了使用wholeText之外，是否有其他方法？我找到了以下类似的stackoverflow问题：
如何在使用jsoup将html转换为纯文本时保留换行符？

然而，那个问题的问题是所有用户都想使用字符串替换或正则表达式来查找br或其他特定标记。我正在寻找更通用的东西（像一个HTML解析器，它删除HTML标签同时保留换行符和其他空格 - 如果有更好的Java库，它不必是jsoup）。

- java-coder789

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- aisha · Answer 1

你可以使用：

Document doc = Jsoup.parse(html);

这将把你的字符串转换为HTML节点以便进行操作，然后使用

doc.outputSettings().indentAmount(0).prettyPrint(false);

保持空间和样式不变。

然后将HTML转换为字符串返回。

doc.body().html().toString();