我正在进行一个项目,需要读取HTML文件并识别特定的标签,修改标签的内容,并创建一个新的HTML文件。是否有一个解析HTML标签并能够将标签写回新文件的库?
我正在进行一个项目,需要读取HTML文件并识别特定的标签,修改标签的内容,并创建一个新的HTML文件。是否有一个解析HTML标签并能够将标签写回新文件的库?
如果你想修改网页并返回修改后的内容,我认为最好的方法是使用XSLT转换。
http://en.wikipedia.org/wiki/XSLT
请查看http://java-source.net/open-source/html-parsers,获取解析HTML文件为Java对象的Java库列表。
如果您正在处理格式良好(XHTML)的HTML文件,则还可以使用Java中的XML库查找特定标记并修改它们。IO本身应由您使用的特定库处理。
如果您选择手动解析字符串,则可以使用正则表达式查找特定标记,并使用Java IO库编写文件并创建新的HTML文档。但是,这种方法重新发明了轮子,因为您必须管理标记的打开和关闭,而所有这些都由现有的库处理。