从HTML文档中删除HTML节点:HTMLAgilityPack

13

在我的代码中,我想删除没有src值的img标签。我正在使用HTMLAgilitypack的HtmlDocument对象。我正在查找没有src值的img并尝试将其删除,但是它会给我一个错误“集合已修改;枚举操作可能无法执行”。有人可以帮助我吗?我使用的代码如下:

foreach (HtmlNode node in doc.DocumentNode.DescendantNodes())
{
    if (node.Name.ToLower() == "img")
    {                            
           string src = node.Attributes["src"].Value;
           if (string.IsNullOrEmpty(src))
           {
               node.ParentNode.RemoveChild(node, false);    
           }
   }
   else
   {
             ..........// i am performing other operations on document
   }
}
4个回答

28

看起来你正在使用 HtmlNode.RemoveChild 方法在枚举期间修改集合。

要解决这个问题,你需要将节点复制到一个单独的列表/数组中,例如通过调用 Enumerable.ToList<T>()Enumerable.ToArray<T>()

var nodesToRemove = doc.DocumentNode
    .SelectNodes("//img[not(string-length(normalize-space(@src)))]")
    .ToList();

foreach (var node in nodesToRemove)
    node.Remove();

如果我是正确的,问题将会消失。


@Piya,很高兴听到这个消息。但我认为使用一个xpath表达式更容易使您的代码更易读(只需使用一个表达式选择要删除的所有节点)。 - Oleks

12

我所做的是:

    List<string> xpaths = new List<string>();
    foreach (HtmlNode node in doc.DocumentNode.DescendantNodes())
    {
                        if (node.Name.ToLower() == "img")
                        {
                            string src = node.Attributes["src"].Value;
                            if (string.IsNullOrEmpty(src))
                            {
                                xpaths.Add(node.XPath);
                                continue;
                            }
                        }
    }

    foreach (string xpath in xpaths)
    {
            doc.DocumentNode.SelectSingleNode(xpath).Remove();
    }

4
var emptyImages = doc.DocumentNode
 .Descendants("img")
 .Where(x => x.Attributes["src"] == null || x.Attributes["src"].Value == String.Empty)
 .Select(x => x.XPath)
 .ToList(); 

emptyImages.ForEach(xpath => { 
      var node = doc.DocumentNode.SelectSingleNode(xpath);
      if (node != null) { node.Remove(); }
    });

1
var emptyElements = doc.DocumentNode
    .Descendants("a")
    .Where(x => x.Attributes["src"] == null || x.Attributes["src"].Value == String.Empty)
    .ToList();

emptyElements.ForEach(node => {
    if (node != null){ node.Remove();}
});

2
虽然这段代码可能解决了问题,但是包括解释它如何以及为什么解决了问题将有助于提高您的帖子质量,并可能导致更多的赞。请记住,您正在回答未来读者的问题,而不仅仅是现在提问的人。请[编辑]您的答案以添加解释并指出适用的限制和假设。 - double-beep

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接