我在工作中需要大量进行HTML解析。目前,我正在使用HtmlUnit无头浏览器进行解析和浏览器自动化。
现在,我希望将这两个任务分开。
我想使用一个轻量级的HTML解析器,因为在HtmlUnit中,首先加载页面,然后获取源代码并解析它需要很长时间。
我想知道哪个HTML解析器可以高效地解析HTML。我需要:
- 速度
- 通过“id”、“名称”或“标记类型”轻松定位任何HtmlElement。
如果不清理脏的HTML代码,也可以接受。我不需要清理任何HTML源代码。我只需要一种最简单的方法来遍历HtmlElements并从中收集数据。