如何在Java中解析和修改HTML文件

8

我正在进行一个项目,需要读取HTML文件并识别特定的标签,修改标签的内容,并创建一个新的HTML文件。是否有一个解析HTML标签并能够将标签写回新文件的库?

4个回答

7

请查看http://jsoup.org,它拥有友好的DOM API,在处理简单任务时你不需要解析HTML。


2

有太多的HTML解析器可供使用。你可以使用JTidyNekoHTML或检查TagSoup

我通常更喜欢使用标准的Java XML解析器来解析XHTML,但是对于任何类型的HTML都无法这样做。


2

我想这就是我一直在期待的。我需要生成报告并以用户喜欢的格式呈现它。 - chai
1
我目前正在使用Xalan处理器,代码运行得非常好。这是处理器的链接http://xml.apache.org/xalan-j/。 - chai

0

请查看http://java-source.net/open-source/html-parsers,获取解析HTML文件为Java对象的Java库列表。

如果您正在处理格式良好(XHTML)的HTML文件,则还可以使用Java中的XML库查找特定标记并修改它们。IO本身应由您使用的特定库处理。

如果您选择手动解析字符串,则可以使用正则表达式查找特定标记,并使用Java IO库编写文件并创建新的HTML文档。但是,这种方法重新发明了轮子,因为您必须管理标记的打开和关闭,而所有这些都由现有的库处理。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接