使用LINQ比较两个XML并打印出差异

8

我正在比较两个XML文件,并且需要打印出它们之间的区别。如何使用LINQ实现这一点?我知道可以使用微软的XML diff patch,但我更喜欢使用LINQ。如果您有其他想法,我也会实现。

//第一个XML

<Books>
 <book>  
  <id="20504" image="C01" name="C# in Depth">
 </book>  
 <book> 
  <id="20505" image="C02" name="ASP.NET">
 </book> 
 <book> 
  <id="20506" image="C03" name="LINQ in Action ">
 </book> 
 <book> 
  <id="20507" image="C04" name="Architecting Applications">
 </book> 
</Books>

//第二个Xml

<Books>
  <book> 
    <id="20504" image="C011" name="C# in Depth">
  </book>
  <book> 
    <id="20505" image="C02" name="ASP.NET 2.0">
  </book>
  <book> 
    <id="20506" image="C03" name="LINQ in Action ">
  </book>
  <book> 
    <id="20508" image="C04" name="Architecting Applications">
  </book>
</Books>

我希望能够比较这两个XML文件并打印出以下结果。
Issued       Issue Type             IssueInFirst    IssueInSecond

1            image is different      C01              C011
2            name  is different      ASP.NET          ASP.NET 2.0
3            id  is different        20507            20508

4
XML有多复杂?如果只是根/记录/@属性,那么可能是可行的。 - Marc Gravell
嗨,马克,这只是一个非常简单的例子,在实际的 XML 中它有点复杂。 - NETQuestion
区别只在于值和/或属性,还是结构也可以不同? - grega g
仅属性值不同(如问题中所示)。结构永远不会改变。 - NETQuestion
所以,每当两行中至少有一个属性相同时,它应该将另外两个属性报告为不同的吗? - grega g
3个回答

2

以下是解决方案:

//sanitised xmls:
string s1 = @"<Books>
                 <book id='20504' image='C01' name='C# in Depth'/>
                 <book id='20505' image='C02' name='ASP.NET'/>
                 <book id='20506' image='C03' name='LINQ in Action '/>
                 <book id='20507' image='C04' name='Architecting Applications'/>
                </Books>";
string s2 = @"<Books>
                  <book id='20504' image='C011' name='C# in Depth'/>
                  <book id='20505' image='C02' name='ASP.NET 2.0'/>
                  <book id='20506' image='C03' name='LINQ in Action '/>
                  <book id='20508' image='C04' name='Architecting Applications'/>
                </Books>";

XDocument xml1 = XDocument.Parse(s1);
XDocument xml2 = XDocument.Parse(s2);

//get cartesian product (i think)
var result1 =   from xmlBooks1 in xml1.Descendants("book")
                from xmlBooks2 in xml2.Descendants("book")
                select new { 
                            book1 = new {
                                        id=xmlBooks1.Attribute("id").Value,
                                        image=xmlBooks1.Attribute("image").Value,
                                        name=xmlBooks1.Attribute("name").Value
                                      }, 
                            book2 = new {
                                        id=xmlBooks2.Attribute("id").Value,
                                        image=xmlBooks2.Attribute("image").Value,
                                        name=xmlBooks2.Attribute("name").Value
                                      } 
                             };

//get every record that has at least one attribute the same, but not all
var result2 = from i in result1
                 where (i.book1.id == i.book2.id 
                        || i.book1.image == i.book2.image 
                        || i.book1.name == i.book2.name) &&
                        !(i.book1.id == i.book2.id 
                        && i.book1.image == i.book2.image 
                        && i.book1.name == i.book2.name) 
                 select i;



foreach (var aa in result2)
{
    //you do the output :D
}

这两个linq语句可能可以合并,但我把它留给你作为练习。


如果这个请求真的能像要求的那样工作,我会感到惊讶。你真的想要一个交叉连接(笛卡尔积)吗? - dahlbyk
没错,它可以工作。下次在评论之前你可以自己检查一下。现在让我们“审查”一下你的解决方案。 - grega g
它对于这个示例集产生了相同的结果,是的。但据我所知,它并没有解决一般问题。例如,假设xml2中id=20508的书是一个打字错误,下一个条目在每个源中都有“真实”的20508数据。您的解决方案将返回两行;我的解决方案将返回一行。根据问题,两个答案都是正确的。 - dahlbyk
嗨 Grega, 如果我们有一本书,其中缺少第一个 XML 或第二个 XML,我需要在上述代码中添加哪些行才能使其工作? - NETQuestion
1
你的意思是如果一本书只在一个XML文件中而不在另一个文件中?那么你想要发生什么呢? - grega g

2

为了娱乐,提供一个关于 grega g 对问题的解读的通用解决方案。为了阐明我对这种方法的反对意见,我引入了一本“PowerShell in Action”的“正确”条目。

string s1 = @"<Books>
     <book id='20504' image='C01' name='C# in Depth'/>
     <book id='20505' image='C02' name='ASP.NET'/>
     <book id='20506' image='C03' name='LINQ in Action '/>
     <book id='20507' image='C04' name='Architecting Applications'/>
     <book id='20508' image='C05' name='PowerShell in Action'/>
    </Books>";
string s2 = @"<Books>
     <book id='20504' image='C011' name='C# in Depth'/>
     <book id='20505' image='C02' name='ASP.NET 2.0'/>
     <book id='20506' image='C03' name='LINQ in Action '/>
     <book id='20508' image='C04' name='Architecting Applications'/>
     <book id='20508' image='C05' name='PowerShell in Action'/>
    </Books>";

XDocument xml1 = XDocument.Parse(s1);
XDocument xml2 = XDocument.Parse(s2);

var res = from b1 in xml1.Descendants("book")
          from b2 in xml2.Descendants("book")
          let issues = from a1 in b1.Attributes()
                       join a2 in b2.Attributes()
                         on a1.Name equals a2.Name
                       select new
                       {
                           Name = a1.Name,
                           Value1 = a1.Value,
                           Value2 = a2.Value
                       }
          where issues.Any(i => i.Value1 == i.Value2)
          from issue in issues
          where issue.Value1 != issue.Value2
          select issue;

以下报告以下内容:

{ Name = image, Value1 = C01, Value2 = C011 }
{ Name = name, Value1 = ASP.NET, Value2 = ASP.NET 2.0 }
{ Name = id, Value1 = 20507, Value2 = 20508 }
{ Name = image, Value1 = C05, Value2 = C04 }
{ Name = name, Value1 = PowerShell in Action, Value2 = Architecting Applications }

请注意,最后两个条目是由于20508错拼和其他正确的20508条目之间的“冲突”。

@grega g,当有50个值对时,如何发现属性值之间的差异?我们需要为每个属性名称进行比较吗?还是有更好的方法来完成相同的任务。谢谢。 - Skanda

1
这里需要使用Zip操作符将两个书本序列中对应的元素配对。该操作符在.NET 4.0中被添加,但我们可以通过使用Select获取书本索引并在其上进行连接来模拟它:
var res = from b1 in xml1.Descendants("book")
                         .Select((b, i) => new { b, i })
          join b2 in xml2.Descendants("book")
                         .Select((b, i) => new { b, i })
            on b1.i equals b2.i

我们将使用第二个连接来比较属性名称的值。请注意,这是内连接;如果您确实想包括一个或另一个中缺少的属性,则需要进行更多的工作。
          select new
          {
              Row = b1.i,
              Diff = from a1 in b1.b.Attributes()
                     join a2 in b2.b.Attributes()
                       on a1.Name equals a2.Name
                     where a1.Value != a2.Value
                     select new
                     {
                         Name = a1.Name,
                         Value1 = a1.Value,
                         Value2 = a2.Value
                     }
          };

结果将是一个嵌套的集合:
foreach (var b in res)
{
    Console.WriteLine("Row {0}: ", b.Row);
    foreach (var d in b.Diff)
        Console.WriteLine(d);
}

或者获取每本书的多行:

var report = from r in res
             from d in r.Diff
             select new { r.Row, Diff = d };

foreach (var d in report)
    Console.WriteLine(d);

它报告了以下内容:

{ Row = 0, Diff = { Name = image, Value1 = C01, Value2 = C011 } }
{ Row = 1, Diff = { Name = name, Value1 = ASP.NET, Value2 = ASP.NET 2.0 } }
{ Row = 3, Diff = { Name = id, Value1 = 20507, Value2 = 20508 } }

关于zip的问题在于它将xml1的第一条记录与xml2的第一条记录连接起来。因此,如果我们稍微改一下xml1——比如说,交换第一个和第二个<book>节点——我们就会得到不同的结果。这就是为什么你需要使用交叉联接的原因。从他的问题和评论中没有理由假设只有相应的节点应该被比较。 - grega g
这个问题被描述为一个差异。在差异中,顺序很重要。 - dahlbyk

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接