XPath在浏览器和HtmlAgilityPack中返回的结果不同

4
我将尝试在C#程序中使用HtmlAgilityPack解析网页的一部分。以下是页面这个部分的简化版本(编辑于2015年1月30日下午2:40 EST):
<html>
    <body>
        <div id="main-box">
            <div>
                <div>...</div>
                <div>

                    <div class="other-classes row-box">
                        <div>...</div>
                        <div>...</div>
                        <div>
                            <p>
                                <a href="/some/other/path">
                                    <img src="/path/to/img" />
                                </a>
                            </p>
                            <p>
                                ...
                                <a href="/test/path?a=123">Correct</a> extra text
                            </p>
                        </div>
                        <div>
                            ...
                            <p>
                                <ul>
                                    ...
                                    <li>
                                        <span>
                                            <a href="/test/path?a=456&b=123">Never Selected</a>
                                            and <a href="/test/path?a=789">Never Selected</a>.
                                        </span>
                                    </li>
                                </ul>
                            </p>
                        </div>
                        ...
                    </div>

                    <div class="other-classes row-box">
                        <div>...</div>
                        <div>...</div>
                        <div>
                            <p>
                                No "a" tag this time
                            </p>
                        </div>
                        <div>
                            <p>
                                <ul>
                                    <li>
                                        <span>
                                            <span style="display:none;">
                                                <a href="/some/other/path">Never Selected</a>
                                            </span>
                                        </span>
                                    </li>
                                    <li>
                                        <span>
                                            <a href="/test/path?a=abc&b=123">Correct</a>
                                            and <a href="/test/path?a=def">Wrongly Selected</a>.
                                        </span>
                                    </li>
                                </ul>
                            </p>
                        </div>
                        ...
                    </div>

                    <div class="other-classes row-box">
                        <div>...</div>
                        <div>...</div>
                        <div>
                            <p>
                                <span>
                                    <a href="/test/path?a=ghi">Correct</a>
                                </span>
                            </p>
                            <p>
                                ...
                                <a href="/test/path?a=jkl">Wrongly Selected</a> extra text
                            </p>
                        </div>
                        <div>
                            <p>
                                <ul>
                                    ...
                                    <li>
                                        <span>
                                            <a href="/test/path?a=mno&b=123">Never Selected</a>
                                            and <a href="/test/path?a=pqr">Never Selected</a>.
                                        </span>
                                    </li>
                                </ul>
                            </p>
                        </div>
                        ...
                    </div>

                </div>
            </div>
        </div>
    </body>
</html>

我试图获取每个带有“Correct”一词的class为“row-box”的div的第三或第四个子div中具有GET参数“a”的第一个(仅限第一个)“a”标签。 我想到了以下XPath,它可以在Chrome浏览器的检查器和Firefox的Firepath插件中获取这些节点且仅获取这些节点:

//div[@id="main-box"]/div/div[2]/div[contains(@class, "row-box")]/div[
  (position() = 3 or position() = 4) and descendant::a[
    contains(@href, "a=")
  ]
][1]/descendant::a[contains(@href, "a=")][1]

然而,当我使用HttpWebRequest加载此页面时,将响应流加载到HtmlDocument对象中,并在其DocumentNode属性上调用SelectNodes(xpath)时,它不仅返回了三个正确的节点,还返回了两个带有文本“Wrongly Selected”的标签,就像上面的示例一样。我注意到这实际上与我使用上述XPath相同,只是没有最后的“[1]”,就像这样(为了易读性而换行):

//div[@id="main-box"]/div/div[2]/div[contains(@class, "row-box")]/div[
  (position() = 3 or position() = 4) and descendant::a[
    contains(@href, "a=")
  ]
][1]/descendant::a[contains(@href, "a=")]

我已确保使用了HtmlAgilityPack的最新版本,尝试过几个XPath的变化来确定是否达到任意最大长度或其他类似简单的问题,并尝试研究类似的问题但没有成功。我试着使用相同的基本概念把一个更简单的HTML结构组合在一起进行测试,但无法重现这个问题,因此我怀疑可能是HtmlAgilityPack在解析这个结构时存在一些微妙的问题。
如果有人知道可能引起这个问题的原因,或者有更好的方法来编写XPath表达式以获取正确的节点并希望不会在HtmlAgilityPack中引起问题,我将非常感激。
编辑:
如建议所示,这里是我正在使用的C#代码的简化版本,我已确认这个版本可以复现我的问题。
using System;
using System.Net;
using HtmlAgilityPack;

...

static void Main(string[] args)
{
    string url = "http://www.deerso.com/test.html";
    string xpath = "//div[@id=\"main-box\"]/div/div[2]/div[contains(@class, \"row-box\")]/div[(position() = 3 or position() = 4) and descendant::a[contains(@href, \"a=\")]][1]/descendant::a[contains(@href, \"a=\")][1]";
    int statusCode;
    string htmlText;

    HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(url);

    request.Accept = "text/html,*/*";
    request.Proxy = new WebProxy();
    request.UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:35.0) Gecko/20100101 Firefox/35.0";

    using (var response = (WebResponse)request.GetResponse())
    {
        statusCode = (int)((HttpWebResponse)response).StatusCode;
        using (var stream = response.GetResponseStream())
        {
            if (stream != null)
            {
                using (var reader = new System.IO.StreamReader(stream))
                {
                    htmlText = reader.ReadToEnd();
                }
            }
            else
            {
                Console.WriteLine("Request to '{0}' failed, response stream was null", url);
                htmlText = null;
                return;
            }
        }
    }

    HtmlNode.ElementsFlags.Remove("form"); //fix for forms
    HtmlDocument doc = new HtmlDocument();
    doc.LoadHtml(htmlText);

    HtmlNodeCollection nodes = doc.DocumentNode.SelectNodes(xpath);

    foreach (HtmlNode node in nodes)
    {
        Console.WriteLine("Node Found:");
        Console.WriteLine("Text: {0}", node.InnerText);
        Console.WriteLine("Href: {0}", node.Attributes["href"].Value);
        Console.WriteLine();
    }

    Console.WriteLine("Done!");
}

也许您可以分享C#代码并将问题标记为此类问题?那么,人们就可以尝试复制这个问题。 - Mathias Müller
@MathiasMüller 谢谢您的建议,我已经添加了能够重现问题的 C# 代码。 - jdawkins
我之前遇到过使用索引器和XPath与HTML Agility包结合的问题。通常使用Linq2Html语法可以解决。但我还没有找到时间来调试HAP,找出它出了什么问题。 - jessehouwing
2个回答

1

基于更新后的Html的新答案

我们不能使用//a[contains(@href,'a=')][1]过滤器,因为它选择的是直接父元素中第一个<a>元素。

我们需要在过滤器中添加括号来包含后代运算符,即

(//a[contains(@href,'a=')])[1]

然而,如果我们将第一个后代过滤器应用于另一个节点集中的每个节点,结果的xpath表达式就无效了。
//div[contains(@class,'row-box')](//a[contains(@href,'a=')])[1]

我认为我们需要分成两步:

  1. 获取包含特定链接的div元素组。
  2. 从该组中的每个元素获取第一个后代链接元素。

在C#中,代码如下:

// Get the <div> elements we know are ancestors to the <a> elements we want
HtmlNodeCollection topDivs = doc.DocumentNode.SelectNodes("//a[contains(@href,'?a=')]/ancestor::div[contains(@class,'row-box')]");

// Create a new list to hold the <a> elements
List<HtmlNode> linksWeWant = new List<HtmlNode>(topDivs.Count)

// Iterate through the <div> elements and get the first descendant
foreach(var div in topDivs)
{
    linksWeWant.Add(div.SelectSingleNode("(//a[contains(@href,'?a=')])[1]"));
}

旧答案

使用此 页面 作为指南,我组合了xpath表达式:

当我在HtmlAgilityPack中运行它时,只会返回这三个元素:

<a href = "/test/path?a=123">
<a href = "/test/path?a=abc&b=123">
<a href = "/test/path?a=ghi">

这是一个表达式的分解:

//div[contains(@class,'row-box')]        -> Get nodeset of <div class="*row-box*"> elements
/descendant::a                           -> From here get all descendant <a> elements
[contains(@href,'a=') and position()=1]  -> Filter according to href value and element being the first descendant

我认为你问题中XPath的关键区别在于/descendant::a[contains(@href,'a=') and position()=1]/descendant::a[contains(@href,'a=')][1]。单独应用[1]是过滤第一个子项而不是第一个后代项。

这个代码可以与最初给出的HTML一起使用。尴尬的是,整个页面包含其他我省略掉的a标签,因为它们对我没有影响。我已经编辑了问题中的HTML,包括导致问题的两个标签,一个在第一个row-box中,另一个在第二个row-box中。问题在于,将其作为“and”复合谓词意味着它必须是第一个a标签后代并具有GET参数。在浏览器中使用“// div [contains(@ class,'row-box')]/ descendant :: a [contains(@ href,'?a =')] [1]”有效,但在HtmlAgilityPack中选择了更多额外的节点。 - jdawkins
更新了答案,考虑到在HTML中添加的标签会排除有效结果,因此加入了position() = 1过滤器。 - John O.

0
我正在尝试获取每个具有“row-box”类的div元素的第三或第四个子div中带有GET参数“a”的第一个并且仅第一个“a”标记。
我认为单个XPath表达式无法实现这样的查询。在XQuery中很容易实现。
for $rowBox in //div[contains(@class, 'row-box')]
    let $firstRelevant := ($rowBox/div[
            (position() = 3 or position() = 4)
            and .//a[contains(@href, 'a=')]
        ])[1]
    return ($firstRelevant//a[contains(@href, 'a=')])[1]

但是这里涉及到的谓词分组(即(...)[...])的数量超过了XPath的表达能力。

在C#中通过多步骤选择结果是一个好方法,就像XQuery那样:

  • 对于每个//div[contains(@class, 'row-box')]
    • 选择./div[(position() = 3 or position() = 4) and .//a[contains(@href, 'a=')]
    • 对于第一个:
      • 选择.//a[contains(@href, 'a=')]
      • 取第一个

很不幸,我对XQuery并不了解,但我同意将其拆分为C#代码会起作用。不幸的是,由于我的程序存在问题超出了这个问题的范围,需要在多个组件和数据库中进行广泛的更改...当在浏览器中测试XPath时,我提供的XPath可以实现我想要的功能,但在HtmlAgilityPack中却无法实现。不过我一定会研究XQuery,因为它听起来可能是我情况下的可行解决方案。 - jdawkins
我倾向于说,使用HTML Agility Pack得到的结果是正确的,而且我有点惊讶你的表达式在浏览器中也能工作。这不应该发生。 - Tomalak
你能详细说明一下为什么你认为它在浏览器中不起作用吗?也许这可以为我的问题提供一些有价值的见解。 - jdawkins

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接