使用HtmlAgilityPack从解析的HTML中删除所有类和ID

Question

使用HtmlAgilityPack从解析的HTML中删除所有类和ID

4

我使用 HtmlAgilityPack 来解析某些 HTML 页面，我从页面中提取 HTML 标签，如下所示：

HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

在返回的HTML中，每个标签都包含类和ID。我想删除所有ID和所有类，我该如何做到这一点？

- Alex

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Ivan Vasiljevic · Accepted Answer

也许您应该查看这个链接：link。

据我所知，当您有HtmlNode时，可以使用它的属性Attributes。此集合具有Remove(string)方法，该方法接收要删除的属性名称。在一个小项目中，我就是这样使用它的。我不确定这是否对您有帮助。

所以基本上：

HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

foreach(var node in all_text)
{
   node.Attributes.Remove("class");
   node.Attributes.Remove("id");
}