使用Java解析具有“未闭合标签”的HTML

3

我的问题非常简单: 在Java中是否有一种方法可以将包含像img标签这样的标签的HTML解析为DOM文档?

<p><img src="..."></p>

这是给我在解析这些元素时引发SAXException的代码片段:

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
DocumentBuilder db = dbf.newDocumentBuilder();

InputStream is = new ByteArrayInputStream( htmlcontent.getBytes());
Document dom = db.parse(is);
is.close();
4个回答

3
我不这么认为,但是jsoup可以做到。它不是DOM API,但它非常相似。

请自由批准答案 - Florent

1


0

HTML不是XML。

除非你在使用XHTML。

因此,没有理由让XML解析器解析你的HTML。

使用像HtmlCleaner这样的HTML解析器。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接