如何使用jsoup从html文件中仅提取文本

8
我用过这段代码:
String innerHtml = Jsoup.parse(htmlCode,"ISO-8859-1").select("body").html();

但它只会去除<html>标签

body内的任何HTML标签仍将显示出来

2个回答

11
使用 .text() 而不是 .html() 来获取元素及其所有子元素的组合文本。

8

尝试使用.text()

Jsoup.parse(htmlCode,"ISO-8859-1").select("body").text();

使用.html()方法的替代方案。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接