我会用Jsoup从HTML页面中删除所有图像。
我通过HTTP响应接收该页面 - 响应中还包含内容字符集。
问题在于Jsoup对一些特殊字符进行了反转义。
例如,对于以下输入:
我只是想使用HTTP头中指定的字符集,但我担心这样会以我无法预测的方式更改我的文档。虽然我确实可以得到正确的输出,但我确信在某些情况下该字符集可能不合适。有没有其他更干净的方法可以删除图像,而不会无意间更改任何其他内容?谢谢!
问题在于Jsoup对一些特殊字符进行了反转义。
例如,对于以下输入:
<html><head></head><body><p>isn’t</p></body></html>
运行结束后
String check = "<html><head></head><body><p>isn’t</p></body></html>";
Document doc = Jsoup.parse(check);
System.out.println(doc.outerHtml());
我会翻译:
<html><head></head><body><p>isn’t</p></body></html><p></p>
我希望你可以在不改变HTML的其他方式下,仅删除图片。
通过使用以下命令:
doc.outputSettings().prettyPrint(false).charset("ASCII").escapeMode(EscapeMode.extended);
我只是想使用HTTP头中指定的字符集,但我担心这样会以我无法预测的方式更改我的文档。虽然我确实可以得到正确的输出,但我确信在某些情况下该字符集可能不合适。有没有其他更干净的方法可以删除图像,而不会无意间更改任何其他内容?谢谢!