如何使用Java从HTML文件中删除注释和注释内容,其中注释的格式如下:
<!--
需要任何关于这方面的想法或帮助。
<!--
需要任何关于这方面的想法或帮助。
final DocumentBuilderFactory newFactory = DocumentBuilderFactory.newInstance();
final DocumentBuilder documentBuilder = newFactory.newDocumentBuilder();
Document document = documentBuilder.parse( new InputSource( new StringReader( string ) ) );
String commentless = pageString.replaceAll("<!--[\w\W]*?-->", "");
编辑:解释正则表达式:
<!--
匹配字面意义的注释开始[\w\W]
匹配注释内的每个字符(包括换行符)*?
匹配多个“任意字符”,但匹配最少的字符(非贪婪模式)-->
关闭注释