我正在尝试从 HTML 中删除不必要的内容,特别是我想要删除注释。我找到了一个相当不错的解决方案(使用 HTML Agility Pack 获取 meta 标签和注释),但是 DOCTYPE 被视为注释,因此随着注释一起被删除了。如何改进以下代码以确保 DOCTYPE 被保留?
var htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(htmlContent);
var nodes = htmlDoc.DocumentNode.SelectNodes("//comment()");
if (nodes != null)
{
foreach (HtmlNode comment in nodes)
{
comment.ParentNode.RemoveChild(comment);
}
}