XPath选择仅子元素(不包括空文本节点)

5

我正在使用Nokogiri和XPath解析一些XML。 当我这样做时:

doc.xpath('//Order/child::node()').each do |node|
  puts node.name
end

它打印出所有的节点,但在名称之间,它也打印出了“文本”。我想我知道为什么:
在我的xml中,节点之间有空格,像这样:"<a1>hi</a1> \n <a2>bye</a2>" 有没有办法告诉它忽略节点之间的东西?

2
您的<Order>标签下是否有任何非元素(文本)子节点需要保留?还有注释节点吗?(在未来,提供实际的XML测试样例和所需输出将有助于获得更好的结果。) - Phrogz
元素之间(包括空格)的文本也是节点。你要查找的只是元素。 - Mark Thomas
2个回答

8

用途:

//Order/node()[not(self::text()[not(normalize-space())])]

这个选择所有 Order 元素的子节点,但排除那些完全由空白字符组成的文本节点。
基于 XSLT 的验证:
<xsl:stylesheet version="1.0"
 xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
 <xsl:output omit-xml-declaration="yes" indent="yes"/>


 <xsl:template match="/*">
     <xsl:variable name="vSel1" select="//Order/node()"/>
     <xsl:variable name="vSel2" select=
     "//Order/node()[not(self::text()[not(normalize-space())])]"/>

     <xsl:for-each select="$vSel1">
       <xsl:value-of select="concat('&#xA;',position(), ': ')"/>
       <xsl:copy-of select="."/>
       <xsl:text>&#xA;</xsl:text>
     </xsl:for-each>
================
     <xsl:for-each select="$vSel2">
       <xsl:value-of select="concat('&#xA;',position(), ': ')"/>
       <xsl:copy-of select="."/>
       <xsl:text>&#xA;</xsl:text>
     </xsl:for-each>
 </xsl:template>
</xsl:stylesheet>

当将此转换应用于以下XML文档时

<t>
 <Order>
  <a/>
  <b>xxx</b>
  <c/>
 </Order>
 <Order>
  <d/>
  <e>xxx</e>
  <f/>
 </Order>
</t>

两个XPath表达式被评估并输出两个相应的选定节点集合的节点,每个节点前面都有其位置编号:

1: 


2: <a/>

3: 


4: <b>xxx</b>

5: 


6: <c/>

7: 


8: 


9: <d/>

10: 


11: <e>xxx</e>

12: 


13: <f/>

14: 


================

1: <a/>

2: <b>xxx</b>

3: <c/>

4: <d/>

5: <e>xxx</e>

6: <f/>

4
如果你只想要元素,使用更好的XPath:查询 /* 将可以找到所有子元素。
require 'nokogiri'
doc = Nokogiri.XML("<r><a>1</a>\n\t<b>2</b></r>")
p doc.xpath('/r/child::node()').map(&:name)
#=> ["a", "text", "b"]

p doc.xpath('/r/*').map(&:name)
#=> ["a", "b"]

或者,您可以要求Nokogiri放弃任何仅为空格的文本注释:

doc2 = Nokogiri.XML("<r><a>1</a>\n\t<b>2</b></r>",&:noblanks)
p doc2.xpath('/r/child::node()').map(&:name)
#=> ["a", "b"]

或者,您可以使用Ruby根据任意标准进一步过滤您的NodeSet:

mine = doc.xpath('/r/child::node()').select do |node| 
  node.type != Nokogiri::XML::Node::TEXT_NODE || node.content =~ /\S/
end
p mine.map(&:name)
#=> ["a", "b"]

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接