XSLT是将文本转换为XML结构的好方法吗？

Question

XSLT是将文本转换为XML结构的好方法吗？

3

我正在寻找更好的解决方案，将一个普通文本（但每个字段都有预定义的长度）转换成XML。例如，输入文本可以是“Testuser new york 10018”，前11个字符表示用户名，接下来的12个字符表示城市，接下来的5个字符表示邮政编码。因此，我需要从上述字符串中形成一个具有预定义字段长度的XML。

我考虑了两种方法：

1. 定义业务实体，并使用输入文本上的子字符串函数填充实体属性，然后将实体序列化为XML。 2. 预定义XML结构，使用XSLT导航到每个节点，并使用输入文本上的子字符串函数填充值。

- testuser

2个回答

3

XSLT 2.0非常适合将结构化文本转换为XML。您可能会喜欢这里Stephanie Haupt和Maik Stuehrenberg的2010年论文：

http://www.balisage.net/Proceedings/vol5/html/Haupt01/BalisageVol5-Haupt01.html

或我的自己的2008年论文

http://www.saxonica.com/papers/ideadb-1.1/mhk-paper.xml

用于案例研究。

我通常不会尝试使用XSLT 1.0来完成这个任务，但正如Dimitre的答案所示，在简单的情况下可以做到。

- Michael Kay

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Dimitre Novatchev · Accepted Answer

声明：“(XSLT)“不适用于将结构化文本转换为XML。”和声明“XSLT必须使用XML作为输入文档”都是错误的。

我考虑了两种方法：

1.定义一个业务实体，并使用输入文本上的子字符串函数填充实体属性，然后将实体序列化为xml。 2.预定义xml结构，使用xslt导航到每个节点并使用输入文本上的子字符串函数填充值。

事实上，第二种方法使用XSLT非常容易实现:

I. XSLT 1.0:

<xsl:stylesheet version="1.0"
 xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
 <xsl:output omit-xml-declaration="yes" indent="yes"/>

 <xsl:template match="/*/text()" name="processLines">
  <xsl:param name="pText" select="."/>

  <xsl:if test="contains($pText, '&#xA;')">
    <xsl:variable name="vLine" select=
     "substring-before($pText, '&#xA;')"/>

     <user>
       <name>
         <xsl:value-of select=
         "translate(substring-before($vLine, ' '),'_',' ')"/>
       </name>
       <city>
         <xsl:value-of select=
         "translate(substring-before(substring-after($vLine, ' '),' '),
                    '_',
                    ' '
                    )
         "/>
       </city>
       <zipCode>
         <xsl:value-of select=
         "translate(substring-after(substring-after($vLine, ' '),' '),
                    '_',
                    ' '
                    )
         "/>
       </zipCode>
     </user>

     <xsl:call-template name="processLines">
      <xsl:with-param name="pText" select=
      "substring-after($pText, '&#xA;')"/>
     </xsl:call-template>
  </xsl:if>
  </xsl:template>
</xsl:stylesheet>

当将该转换应用于特别格式的文本（在一个顶层元素内包裹，以使其成为良好格式--如我们将在XSLT 2.0中看到，这种包装并非必要）：

<t>Testuser new_york 10018
usera seattle 98000
userb bellevue 98004
userb redmond 98052
</t>

所期望的结果已生成:

<user>
   <name>Testuser</name>
   <city>new york</city>
   <zipCode>10018</zipCode>
</user>
<user>
   <name>usera</name>
   <city>seattle</city>
   <zipCode>98000</zipCode>
</user>
<user>
   <name>userb</name>
   <city>bellevue</city>
   <zipCode>98004</zipCode>
</user>
<user>
   <name>userb</name>
   <city>redmond</city>
   <zipCode>98052</zipCode>
</user>

注：

这只是一个演示如何完成任务的示例。这就是为什么我没有处理固定宽度字段（虽然会更容易），而是处理用空格分隔的值。
任何值中包含的任何空格都将作为下划线（或我们选择的任何字符，我们知道它永远不会成为任何值的一部分）输入到输入中。在输出时，任何下划线都将被转换为实际空格。

II. XSLT 2.0解决方案:

<xsl:stylesheet version="2.0"
 xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
 <xsl:output omit-xml-declaration="yes" indent="yes"/>

 <xsl:variable name="vText" select=
  "unparsed-text('file:///c:/temp/delete/delete.txt')"/>

 <xsl:variable name="vLines" select=
  "tokenize($vText, '&#xD;?&#xA;')[normalize-space()]"/>

 <xsl:template match="/">
  <xsl:for-each select="$vLines">
    <xsl:variable name="vFields" select=
    "tokenize(., ' ')[normalize-space()]"/>
   <user>
     <name>
       <xsl:sequence select="translate($vFields[1], '_',' ')"/>
     </name>
     <city>
       <xsl:sequence select="translate($vFields[2], '_',' ')"/>
     </city>
     <zipCode>
       <xsl:sequence select="translate($vFields[3], '_',' ')"/>
     </zipCode>
   </user>
  </xsl:for-each>
 </xsl:template>
</xsl:stylesheet>

当这种转换应用于任何XML文档时（在XSLT 2.0中不需要使用，实际上也不需要源XML文档），如果文件C:\temp\delete\delete.txt存在：

Testuser new_york 10018
usera seattle 98000
userb bellevue 98004
userb redmond 98052

再次获得了正确的结果:

<user>
   <name>Testuser</name>
   <city>new york</city>
   <zipCode>10018</zipCode>
</user>
<user>
   <name>usera</name>
   <city>seattle</city>
   <zipCode>98000</zipCode>
</user>
<user>
   <name>userb</name>
   <city>bellevue</city>
   <zipCode>98004</zipCode>
</user>
<user>
   <name>userb</name>
   <city>redmond</city>
   <zipCode>98052</zipCode>
</user>

注意:

使用标准的XSLT 2.0函数unparsed-text().
使用标准的XPath 2.0函数tokenize().

最后的说明:

大多数复杂的文本处理都可以通过XSLT以工业方式完成。FXSL库包含一个通用的LR(1)解析器和一个调整过的YACC，它产生XML格式表格，这是通用运行时LR(1)解析器的输入。

使用此工具，我成功地构建了JSON和XPath 2.0等复杂语言的解析器。