如何在C#中从HTML文件中提取HTML链接?

3

有人能帮我解释如何在C#中从HTML文件中提取URL/链接吗?


这应该是一个重复的。 - Aryabhatta
请查看https://dev59.com/ZXRA5IYBdhLWcg3wvQhh - Austin Salonen
3个回答

11

看看 Html Agility Pack

HtmlDocument doc = new HtmlDocument(); 
doc.Load("file.htm");  
foreach(HtmlNode link in doc.DocumentNode.SelectNodes("//a[@href]")) 
{
    HtmlAttribute att = link.Attributes["href"];
    yourList.Add(att.Value)  
}  
doc.Save("file.htm");

1
做这个。使用正则表达式解析HTML可能是一项非常繁琐的任务,而Html Agility Pack可以为您节省大量时间。 - Nathan Taylor
同意,HTML Agility Pack 是最好的选择。 - Dan Diplo
Html Agility Pack 又有了新进展! - thijs

2
使用HTMLAgility Pack...
    private List<string> ParseLinks(string html)
    {
        var doc = new HtmlDocument(); 
        doc.LoadHtml(html);
        var nodes = doc.DocumentNode.SelectNodes("//a[@href]");
        return nodes == null ? new List<string>() : nodes.ToList().ConvertAll(r => r.Attributes.ToList().ConvertAll(i => i.Value)).SelectMany(j => j).ToList();
    }

这对我有效。


-2
你可以使用 HTQL COM 对象,使用以下查询语句查询页面: <a>:href
HTQLCOMLib.HtqlControl h = new HTQLCOMLib.HtqlControl();
string page = "<html><body><a href='test1.html'>test1</a><a href='test2.html'>test2</a> </body></html>";
h.setSourceData(page, page.Length);
h.setQuery("<a>: href ");
for (h.moveFirst(); 0 == h.isEOF(); h.moveNext() )
{
     MessageBox.Show(h.getValueByIndex(1));
}

它将显示以下信息:

test1.html

test2.html


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接