我正在寻找一款简单、轻量级的Java库,用于解析HTML。我已经搜索了很多选项,但是没有找到合适的东西。我真的希望有像Python中的pyquery一样的Java库。我的要求是:快速、易于使用和轻量级。
我需要这个库来做什么?不确定是否重要,但我需要索引HTML文档的部分。因此,我希望能够快速选择文档的某个部分,然后对其进行解析。
过去我使用过HTMLParser,但并不是很满意。我发现了tagsoup和jsoup。我非常喜欢jsoup。虽然还没有广泛使用过,但你可以像下面这样使用它:
Elements resultLinks = doc.select("h3 > a"); // direct a after h3
试试Groovy。它有许多“slurpers”,这些DSL用于读取标记语言,如XML和HTML,以及JSON。这里是一个例子。