我正在寻找Clojure/Java版本的Python lxml库。
过去我用过它来解析各种HTML(作为BeautifulSoup的替代品),而且它很好地实现了XML的elementtree API - 真的是个可靠的朋友! 请问有没有类似的Java/Clojure库可以推荐?
关于lxml:
lxml是一个基于libxml2的XML和HTML处理库。它能够很好地处理破损的HTML页面,因此非常适合屏幕抓取任务。它还实现了ElementTree API,因此XML/HTML结构被表示为树形对象,并完全支持XPath和CSS选择器等功能。
此外,它还具有一些非常方便的实用程序函数,如“cleaner”模块,可以从“soup”中剥离出不需要的标签(例如脚本标签、样式标签等)。
因此,它易于使用、强大且非常快速...!