Java中用于使用XPath查询HTML的库？

Question

Java中用于使用XPath查询HTML的库？

javahtmlxhtmlxpath

6

有人能推荐一个Java库，允许我在URL上进行XPath查询吗？我已经尝试过JAXP，但没有成功。

谢谢。

- Leonardo Marques

请参见https://dev59.com/vmox5IYBdhLWcg3wtmc1 - 这不完全是一个重复的问题，因为它询问了特定的XPath功能，但那里有更好的答案。 - Mark Butler

@Reonarudo 我和你提问时处于同样的情况。回答中有许多可能的建议/解决方案，但我想知道你使用了哪个解决方案（库），并且它是否按照你想要的方式工作？ - Uther Pendragon

@UtherPendragon 对不起，这是很久以前的事情了，我无法回忆起这是哪个项目。无论如何，现在应该有更新/更好的库可用。 - Leonardo Marques

5个回答

6

jsoup，Java HTML解析器非常类似于jQuery语法方式。

- Artem Barger

我不确定。它执行的是基于xpath的更简单的查询。您可以阅读一些文档，有很多很酷的例子，解释如何运行这些查询。 - Artem Barger

5

jsoup（至少版本1.7.3）不支持XPath。 - brabec

jsoup使用CSS/jQuery语法方式，这种方式与XPath相似且更好。 - phil

17

CSS 选择器并不比 XPath 更好。在 XPath 中有一些可以选择的内容，而在 CSS 选择器中则无法实现。 - Neil McGuigan

jsoup现在支持XPath和CSS选择器。自2021年9月起，在jsoup 1.14.3中实现了该功能。 - Jonathan Hedley

2

使用 Xsoup。根据文档，它比 HtmlCleaner 更快。示例

 @Test
    public void testSelect() {

        String html = "<html><div><a href='https://github.com'>github.com</a></div>" +
                "<table><tr><td>a</td><td>b</td></tr></table></html>";

        Document document = Jsoup.parse(html);

        String result = Xsoup.compile("//a/@href").evaluate(document).get();
        Assert.assertEquals("https://github.com", result);

        List<String> list = Xsoup.compile("//tr/td/text()").evaluate(document).list();
        Assert.assertEquals("a", list.get(0));
        Assert.assertEquals("b", list.get(1));
    }