使用HtmlAgilityPack从解析的HTML中删除所有类和ID

4

我使用 HtmlAgilityPack 来解析某些 HTML 页面,我从页面中提取 HTML 标签,如下所示:

HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

在返回的HTML中,每个标签都包含类和ID。我想删除所有ID和所有类,我该如何做到这一点?
1个回答

5
也许您应该查看这个链接:link
据我所知,当您有HtmlNode时,可以使用它的属性Attributes。此集合具有Remove(string)方法,该方法接收要删除的属性名称。在一个小项目中,我就是这样使用它的。我不确定这是否对您有帮助。
所以基本上:
HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

foreach(var node in all_text)
{
   node.Attributes.Remove("class");
   node.Attributes.Remove("id");
} 

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接