我正在寻找一种高效的方法来从网页中提取HTML片段并对该HTML片段执行特定操作。
所需操作包括:
1. 删除所有带有"class = hidden"的标签 2. 删除所有脚本标记 3. 删除所有样式标记 4. 删除所有事件属性(on*="*") 5. 删除所有样式属性
我一直在使用HTML解析器 (org.htmlparser) 来完成这项任务,并已能够满足所有要求,但是我觉得我的解决方案不够优雅。目前,我使用Css选择器节点过滤器(以获取片段),然后使用节点访问者重新解析该片段以执行清理操作。
请问有人能建议如何解决这个问题吗?我希望只解析文档一次并在该解析期间执行所有操作。
先感谢您!
所需操作包括:
1. 删除所有带有"class = hidden"的标签 2. 删除所有脚本标记 3. 删除所有样式标记 4. 删除所有事件属性(on*="*") 5. 删除所有样式属性
我一直在使用HTML解析器 (org.htmlparser) 来完成这项任务,并已能够满足所有要求,但是我觉得我的解决方案不够优雅。目前,我使用Css选择器节点过滤器(以获取片段),然后使用节点访问者重新解析该片段以执行清理操作。
请问有人能建议如何解决这个问题吗?我希望只解析文档一次并在该解析期间执行所有操作。
先感谢您!