XSL字符转义问题

9
我写这篇文章是因为我真的遇到了困境,无法继续前进。在我的数据库中,我像这样转义了HTML:"<p>My name is Freddy and I was"
我想要在我的XSL模板中显示它作为HTML或删除HTML标签。两种解决方案都可以,我会选择更快的解决方案。
我已经阅读了几篇在线文章,但没有找到解决方案。我也尝试了disable-output-escape,但没有成功。基本上问题似乎是在XSL执行过程中引擎将<p>变成了<p>
它将&转换为&。如果有帮助的话,这是我的XSL代码。我已经尝试了几种带或不带顶部输出标记的组合。
任何帮助将不胜感激。提前致谢。
<?xml version="1.0" encoding="utf-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">

  <xsl:output method="html" omit-xml-declaration="yes"/>

  <xsl:template match="DocumentElement">
    <div>
      <xsl:attribute name="id">mySlides</xsl:attribute>
      <xsl:apply-templates>
        <xsl:with-param name="templatenumber" select="0"/>
      </xsl:apply-templates>
    </div>

    <div>
      <xsl:attribute name="id">myController</xsl:attribute>
      <xsl:apply-templates>
        <xsl:with-param name="templatenumber" select="1"/>
      </xsl:apply-templates>
    </div>
  </xsl:template>

  <xsl:template match="DocumentElement/QueryResults">
    <xsl:param name="templatenumber">tobereplace</xsl:param>

    <xsl:if test="$templatenumber=0">
      <div>
        <xsl:attribute name="id">myController</xsl:attribute>
        <div>
          <xsl:attribute name="class">article</xsl:attribute>
          <h2>
            <a>
              <xsl:attribute name="class">title</xsl:attribute>
              <xsl:attribute name="title"><xsl:value-of select="Title"/></xsl:attribute>
              <xsl:attribute name="href">/stories/stories-details/articletype/articleview/articleid/<xsl:value-of select="ArticleId"/>/<xsl:value-of select="SEOTitle"/>.aspx</xsl:attribute>
              <xsl:value-of select="Title"/>
            </a>
          </h2>
          <div>
            <xsl:attribute name="style">text-indent: 25px;</xsl:attribute>
            <xsl:attribute name="class">articlesummary</xsl:attribute>
            <xsl:call-template name="removeHtmlTags">
              <xsl:with-param name="html" select="Summary" />
            </xsl:call-template>
          </div>
        </div>
      </div>
    </xsl:if>
    <xsl:if test="$templatenumber=1">
      <div>
        <xsl:attribute name="id">myController</xsl:attribute>
        <span>
          <xsl:attribute name="class">jFlowControl</xsl:attribute>
          aa
        </span>
      </div>
    </xsl:if>
  </xsl:template>

  <xsl:template name="removeHtmlTags">
    <xsl:param name="html"/>
    <xsl:choose>
      <xsl:when test="contains($html, '&lt;')">
        <xsl:value-of select="substring-before($html, '&lt;')"/>
        <!-- Recurse through HTML -->
        <xsl:call-template name="removeHtmlTags">
          <xsl:with-param name="html" select="substring-after($html, '&gt;')"/>
        </xsl:call-template>
      </xsl:when>
      <xsl:otherwise>
        <xsl:value-of select="$html"/>
      </xsl:otherwise>
    </xsl:choose>
  </xsl:template>
</xsl:stylesheet>

@Marcos,我需要一些帮助来理解你想要做什么。你的XSLT表明它正在尝试输出HTML,但是你有一个模板表明你正在删除HTML标记。不确定你为什么要这样做。如果可以,请提供更多信息。 - Nick
为了能够对问题做出任何陈述,拥有一个XML输入的示例并运行样式表以展示问题,同时知道您正在使用哪个XSLT处理器将非常有用... - Laurent
4个回答

19

基于您拥有this HTML字符串的假设,

<p>My name is Freddy &amp; I was

如果您逃脱并将其存储在数据库中,则它将变为this

&lt;p&gt;My name is Freddy &amp;amp; I was
因此,如果您在未事先取消转义的情况下将其作为XML检索,结果将为this
&amp;lt;p&amp;gt;My name is Freddy &amp;amp;amp; I was

<xsl:value-of select="." disable-output-escaping="yes" />会产生:

&lt;p&gt;My name is Freddy &amp;amp; I was

你得到的正是你在数据库中拥有的内容,但当然你在输出中看到了HTML标签。所以,你需要一个机制来进行以下字符串替换:

  • "&amp;lt;" 替换为 "&lt;" (有效地将未转义输出中的 &lt; 更改为 <
  • "&amp;gt;" 替换为 "&gt;" (有效地将未转义输出中的 &gt; 更改为 >
  • "&amp;quot;" 替换为 "&quot;" (有效地将未转义输出中的 &quot; 更改为 "
  • "&amp;amp;" 替换为 "&amp;" (有效地将未转义输出中的 &amp; 更改为 &

从您的 XSL 中,我推断出以下测试输入 XML:

<DocumentElement>
  <QueryResults>
    <Title>Article 1</Title>
    <ArticleId>1</ArticleId>
    <SEOTitle>Article_1</SEOTitle>
    <Summary>&amp;lt;p&amp;gt;Article 1 summary &amp;amp;amp; description.&amp;lt;/p&amp;gt;</Summary>
  </QueryResults>
  <QueryResults>
    <Title>Article 2</Title>
    <ArticleId>2</ArticleId>
    <SEOTitle>Article_2</SEOTitle>
    <Summary>&amp;lt;p&amp;gt;Article 2 summary &amp;amp;amp; description.&amp;lt;/p&amp;gt;</Summary>
  </QueryResults>
</DocumentElement>

我已经更改了您提供的样式表,并实施了这样一个替换机制。如果您将以下 XSLT 1.0 模板应用于它:

<xsl:stylesheet
  version="1.0"
  xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
  xmlns:my="my:namespace"
  exclude-result-prefixes="my"
>

  <xsl:output method="html" omit-xml-declaration="yes"/>

  <my:unescape>
    <my:char literal="&lt;" escaped="&amp;lt;" />
    <my:char literal="&gt;" escaped="&amp;gt;" />
    <my:char literal="&quot;" escaped="&amp;quot;" />
    <my:char literal="&amp;" escaped="&amp;amp;" />
  </my:unescape>

  <xsl:template match="DocumentElement">
    <div id="mySlides">
      <xsl:apply-templates mode="slides" />
    </div>
    <div id="myController">
      <xsl:apply-templates mode="controller" />
    </div>
  </xsl:template>

  <xsl:template match="DocumentElement/QueryResults" mode="slides">
    <div class="article">
      <h2>
        <a class="title" title="{Title}" href="{concat('/stories/stories-details/articletype/articleview/articleid/', ArticleId, '/', SEOTitle, '.aspx')}">
          <xsl:value-of select="Title"/>
        </a>
      </h2>
      <div class="articlesummary" style="text-indent: 25px;">
        <xsl:apply-templates select="document('')/*/my:unescape/my:char[1]">
          <xsl:with-param name="html" select="Summary" />
        </xsl:apply-templates>
      </div>
    </div>
  </xsl:template>

  <xsl:template match="DocumentElement/QueryResults" mode="controller">
    <span class="jFlowControl">
      <xsl:text>aa </xsl:text>
      <xsl:value-of select="Title" />
    </span>
  </xsl:template>

  <xsl:template match="my:char">
    <xsl:param name="html" />
    <xsl:variable name="intermediate">
      <xsl:choose>
        <xsl:when test="following-sibling::my:char">
          <xsl:apply-templates select="following-sibling::my:char[1]">
            <xsl:with-param name="html" select="$html" />
          </xsl:apply-templates>
        </xsl:when>
        <xsl:otherwise>
          <xsl:value-of select="$html" disable-output-escaping="yes" />
        </xsl:otherwise>
      </xsl:choose>
    </xsl:variable>
    <xsl:call-template name="unescape">
      <xsl:with-param name="html" select="$intermediate" />
    </xsl:call-template>
  </xsl:template>

  <xsl:template name="unescape">
    <xsl:param name="html" />
    <xsl:choose>
      <xsl:when test="contains($html, @escaped)">
        <xsl:value-of select="substring-before($html, @escaped)" disable-output-escaping="yes"/>
        <xsl:value-of select="@literal" disable-output-escaping="yes" />
        <xsl:call-template name="unescape">
          <xsl:with-param name="html" select="substring-after($html, @escaped)"/>
        </xsl:call-template>
      </xsl:when>
      <xsl:otherwise>
        <xsl:value-of select="$html" disable-output-escaping="yes"/>
      </xsl:otherwise>
    </xsl:choose>
  </xsl:template>

</xsl:stylesheet>

然后生成此输出 HTML:

<div id="mySlides">
  <div class="article">
    <h2>
      <a class="title" title="Article 1" href="/stories/stories-details/articletype/articleview/articleid/1/Article_1.aspx">Article 1</a>
    </h2>
    <div class="articlesummary" style="text-indent: 25px;">
      <p>Article 1 summary &amp; description.</p>
    </div>
  </div>
  <div class="article">
    <h2>
      <a class="title" title="Article 2" href="/stories/stories-details/articletype/articleview/articleid/2/Article_2.aspx">Article 2</a>
    </h2>
    <div class="articlesummary" style="text-indent: 25px;">
      <p>Article 2 summary &amp; description.</p>
    </div>
  </div>
</div>
<div id="myController">
  <span class="jFlowControl">aa Article 1</span>
  <span class="jFlowControl">aa Article 2</span>
</div>
  • 使用临时命名空间和嵌入元素(<my:unescape>)创建字符替换列表
  • 使用递归来模拟迭代替换输入中的所有受影响字符
  • unescape模板中使用隐式上下文传输信息,告知当前要替换的字符是什么

此外,请注意:

  • 使用模板模式获得相同输入的不同输出(这替换了您的templatenumber参数)
  • 大多数情况下不需要使用<xsl:attribute>元素。它们可以安全地用内联符号表示法(attributename="{attributevalue}")替换
  • 使用concat()函数创建URL

一般来说,在数据库中存储已转义的HTML是一个坏主意(更普遍地说:在数据库中存储HTML是一个坏主意)。这样做会导致各种问题,这只是其中之一。如果您无法更改此设置,则希望此解决方案能对您有所帮助。

我不能保证在所有情况下都能正确执行操作,它可能会打开安全漏洞(考虑XSS),但是处理这些问题不是本问题的一部分。在任何情况下,请自行注意。

我现在需要休息。


谢谢,我也遇到了完全相同的问题 :) 你的回复很棒,给你点赞。 - EinLama

6

不应将转义后的HTML存储在数据库中。如果您的数据库包含实际的"<"字符,则"disable-output-escaping"命令将执行您想要的操作。

如果您无法更改数据,则必须在执行转换之前取消转义数据。


谢谢!我刚刚有了这个想法:不要尝试使用HTML STRIP模板来取消转义<,而是使用&lt;进行STRIP,这样会起作用。不幸的是,我正在从另一个应用程序的表中提取信息,我无法改变它的工作方式。我正在使用DotNetNuke。 - Marcos Buarque
+1. 我讨厌人们将这样的结构存储在数据库中。这是一个管理上的噩梦。 - Kent Fredric

2
请将以下行添加到您的样式表中:
<xsl:output method="html" indent="yes" version="4.0"/>

1
“在数据库中存储HTML是一个不好的想法。”这句话听起来有点奇怪,那应该怎么存储呢?难道要用XML文档,然后还得使用XSLT吗?作为一名Web开发人员,我们一直使用SQL数据库来存储用户定义的HTML数据。只要对其进行适当的净化以满足您的需求,这种方法就没有问题。

这不是一个好的实践。如果你能够逃脱,那只是因为你没有在一个需要扩展的系统上工作。 - itsbruce
不管好坏,现在几乎整个网络都是由存储在数据库中的HTML驱动的。WordPress就是一个明显的例子。 - Alan M
使用MarkDown标记语言可能比HTML标记语言更方便。无论哪种方式,都存在需要在数据库中存储某种标记的用例。 - CodeManX
@CoDEmanX:Markdown可以嵌入任意HTML以进行扩展,我遇到的每个Markdown解析器要么从未支持安全模式,要么已经弃用了它们,因为他们不想负责净化输入,或者建议您仍然通过HTML净化器处理其安全模式输出。考虑到涉及的负载,确保扩展的推荐方法是从Markdown生成HTML,通过HTML净化器运行它,然后将该HTML输出缓存到数据库中以提高性能。 - ssokolow

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接