我将尝试在C#程序中使用HtmlAgilityPack解析网页的一部分。以下是页面这个部分的简化版本(编辑于2015年1月30日下午2:40 EST):
我已确保使用了HtmlAgilityPack的最新版本,尝试过几个XPath的变化来确定是否达到任意最大长度或其他类似简单的问题,并尝试研究类似的问题但没有成功。我试着使用相同的基本概念把一个更简单的HTML结构组合在一起进行测试,但无法重现这个问题,因此我怀疑可能是HtmlAgilityPack在解析这个结构时存在一些微妙的问题。
如果有人知道可能引起这个问题的原因,或者有更好的方法来编写XPath表达式以获取正确的节点并希望不会在HtmlAgilityPack中引起问题,我将非常感激。
编辑:
如建议所示,这里是我正在使用的C#代码的简化版本,我已确认这个版本可以复现我的问题。
<html>
<body>
<div id="main-box">
<div>
<div>...</div>
<div>
<div class="other-classes row-box">
<div>...</div>
<div>...</div>
<div>
<p>
<a href="/some/other/path">
<img src="/path/to/img" />
</a>
</p>
<p>
...
<a href="/test/path?a=123">Correct</a> extra text
</p>
</div>
<div>
...
<p>
<ul>
...
<li>
<span>
<a href="/test/path?a=456&b=123">Never Selected</a>
and <a href="/test/path?a=789">Never Selected</a>.
</span>
</li>
</ul>
</p>
</div>
...
</div>
<div class="other-classes row-box">
<div>...</div>
<div>...</div>
<div>
<p>
No "a" tag this time
</p>
</div>
<div>
<p>
<ul>
<li>
<span>
<span style="display:none;">
<a href="/some/other/path">Never Selected</a>
</span>
</span>
</li>
<li>
<span>
<a href="/test/path?a=abc&b=123">Correct</a>
and <a href="/test/path?a=def">Wrongly Selected</a>.
</span>
</li>
</ul>
</p>
</div>
...
</div>
<div class="other-classes row-box">
<div>...</div>
<div>...</div>
<div>
<p>
<span>
<a href="/test/path?a=ghi">Correct</a>
</span>
</p>
<p>
...
<a href="/test/path?a=jkl">Wrongly Selected</a> extra text
</p>
</div>
<div>
<p>
<ul>
...
<li>
<span>
<a href="/test/path?a=mno&b=123">Never Selected</a>
and <a href="/test/path?a=pqr">Never Selected</a>.
</span>
</li>
</ul>
</p>
</div>
...
</div>
</div>
</div>
</div>
</body>
</html>
我试图获取每个带有“Correct”一词的class为“row-box”的div的第三或第四个子div中具有GET参数“a”的第一个(仅限第一个)“a”标签。 我想到了以下XPath,它可以在Chrome浏览器的检查器和Firefox的Firepath插件中获取这些节点且仅获取这些节点:
//div[@id="main-box"]/div/div[2]/div[contains(@class, "row-box")]/div[
(position() = 3 or position() = 4) and descendant::a[
contains(@href, "a=")
]
][1]/descendant::a[contains(@href, "a=")][1]
然而,当我使用HttpWebRequest加载此页面时,将响应流加载到HtmlDocument对象中,并在其DocumentNode属性上调用SelectNodes(xpath)时,它不仅返回了三个正确的节点,还返回了两个带有文本“Wrongly Selected”的标签,就像上面的示例一样。我注意到这实际上与我使用上述XPath相同,只是没有最后的“[1]”,就像这样(为了易读性而换行):
//div[@id="main-box"]/div/div[2]/div[contains(@class, "row-box")]/div[
(position() = 3 or position() = 4) and descendant::a[
contains(@href, "a=")
]
][1]/descendant::a[contains(@href, "a=")]
我已确保使用了HtmlAgilityPack的最新版本,尝试过几个XPath的变化来确定是否达到任意最大长度或其他类似简单的问题,并尝试研究类似的问题但没有成功。我试着使用相同的基本概念把一个更简单的HTML结构组合在一起进行测试,但无法重现这个问题,因此我怀疑可能是HtmlAgilityPack在解析这个结构时存在一些微妙的问题。
如果有人知道可能引起这个问题的原因,或者有更好的方法来编写XPath表达式以获取正确的节点并希望不会在HtmlAgilityPack中引起问题,我将非常感激。
编辑:
如建议所示,这里是我正在使用的C#代码的简化版本,我已确认这个版本可以复现我的问题。
using System;
using System.Net;
using HtmlAgilityPack;
...
static void Main(string[] args)
{
string url = "http://www.deerso.com/test.html";
string xpath = "//div[@id=\"main-box\"]/div/div[2]/div[contains(@class, \"row-box\")]/div[(position() = 3 or position() = 4) and descendant::a[contains(@href, \"a=\")]][1]/descendant::a[contains(@href, \"a=\")][1]";
int statusCode;
string htmlText;
HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(url);
request.Accept = "text/html,*/*";
request.Proxy = new WebProxy();
request.UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:35.0) Gecko/20100101 Firefox/35.0";
using (var response = (WebResponse)request.GetResponse())
{
statusCode = (int)((HttpWebResponse)response).StatusCode;
using (var stream = response.GetResponseStream())
{
if (stream != null)
{
using (var reader = new System.IO.StreamReader(stream))
{
htmlText = reader.ReadToEnd();
}
}
else
{
Console.WriteLine("Request to '{0}' failed, response stream was null", url);
htmlText = null;
return;
}
}
}
HtmlNode.ElementsFlags.Remove("form"); //fix for forms
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(htmlText);
HtmlNodeCollection nodes = doc.DocumentNode.SelectNodes(xpath);
foreach (HtmlNode node in nodes)
{
Console.WriteLine("Node Found:");
Console.WriteLine("Text: {0}", node.InnerText);
Console.WriteLine("Href: {0}", node.Attributes["href"].Value);
Console.WriteLine();
}
Console.WriteLine("Done!");
}