这是在进行网页爬取时最好的方式吗?
HttpWebRequest oReq = (HttpWebRequest)WebRequest.Create(url);
HttpWebResponse resp = (HttpWebResponse)oReq.GetResponse();
var doc = new HtmlAgilityPack.HtmlDocument();
doc.Load(resp.GetResponseStream());
var element = doc.GetElementbyId("//start-left");
var element2 = doc.DocumentNode.SelectSingleNode("//body");
string html = doc.DocumentNode.OuterHtml;
我看到使用HtmlWeb().Load
获取网页。这是比先加载再解析网页更好的选择吗?
好的,我会尝试使用这种方法。
HtmlDocument doc = web.Load(url);
当我获取到doc
时,我没有得到很多属性。 没有人喜欢使用SelectSingleNode
。 我唯一能使用的是GetElementById
,而且它可以正常工作,但我想获得一个类。
我需要这样做吗?
var htmlBody = doc.DocumentNode.SelectSingleNode("//body");
htmlBody.SelectSingleNode("//paging");