Html Agility Pack在迭代中始终返回相同的结果,如何解决?

20
我想获取集合中的节点,但使用SelectSingleNode迭代时,我始终得到相同的对象,只是node.Id在变化... 我的尝试是读取给定站点的webresponse,并捕获特定定义元素中的一些信息,例如值、链接等。
int offSet = 0;
string address = "http://www.testsite.de/ergebnisliste.html?offset=" + offSet;

HtmlWeb web = new HtmlWeb();
//web.OverrideEncoding = Encoding.UTF8;
HtmlDocument doc = web.Load(address);

HtmlNodeCollection collection = doc.DocumentNode.SelectNodes("//div[@itemtype='http://schema.org/Posting']");

foreach (HtmlNode node in collection) {
    string id = HttpUtility.HtmlDecode(node.Id);
    string cpname = HttpUtility.HtmlDecode(node.SelectSingleNode("//span[@itemprop='name']").InnerText);
    string cptitle = HttpUtility.HtmlDecode(node.SelectSingleNode("//span[@itemprop='title']").InnerText);
    string cpaddress = HttpUtility.HtmlDecode(node.SelectSingleNode("//span[@itemprop='addressLocality']").InnerText);
    string date = HttpUtility.HtmlDecode(node.SelectSingleNode("//div[@itemprop='datePosted']").InnerText);
    string link = "http://www.testsite.de" + HttpUtility.HtmlDecode(node.SelectSingleNode("//div[@class='h3 title']//a[@href]").GetAttributeValue("href", "default"));               
}

这是一个迭代的示例:

<div id="66666" itemtype="http://schema.org/Posting">   
<div>
    <a>
        <img />
    </a>
</div>
<div>
    <div class="h3 title">
        <a href="/test.html"  title="Test">
            <span itemprop="title">Test</span>
        </a>
    </div>
    <div>
        <span itemprop="name">TestName</span>       
    </div>
</div>
<div>
    <div>
        <div>
            <div>
                <span itemprop="address">Test</span>
            </div>
            <span>                     
                <a>
                    <span><!-- --></span>
                    <span></span>
                </a>
            </span>         
        </div>
    </div>      
    <div itemprop="date">
        <time datetime="2013-03-01">01.03.13</time>
    </div>
</div>


https://dev59.com/sG025IYBdhLWcg3wKCf-#6182495 - Oscar Mederos
1个回答

48
通过编写

node.SelectSingleNode("//span[@itemprop='name']").InnerText

就像你在写作一样

doc.DocumentNode.SelectSingleNode("//span[@itemprop='name']").InnerText

为了做你想做的事情,你应该像这样编写代码:node.SelectSingleNode(".//span[@itemprop='name']").InnerText
这个 . 点号告诉程序在当前节点 node 上进行搜索,而不是在 doc 上。

非常好的回答!非常感谢Loclip! - Markus Knappen Johansson

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接