在JavaScript中如何取消转义HTML实体？

Question

在JavaScript中如何取消转义HTML实体？

293

我有一些JavaScript代码，用它来与XML-RPC后端进行通信。 XML-RPC返回以下格式的字符串：

<img src='myimage.jpg'>

然而，当我使用 JavaScript 将字符串插入 HTML 时，它们会直接渲染为字符串。我看不到图像，我只看到字面的字符串：

<img src='myimage.jpg'>

我猜测HTML在XML-RPC通道上被转义了。

我该如何在JavaScript中取消转义字符串？我尝试了这个页面上的技术，但没有成功：http://paulschreiber.com/blog/2008/09/20/javascript-how-to-unescape-html-entities/

还有哪些方法可以诊断问题？

- Joseph Turian

这篇文章中包含的庞大函数似乎运行良好：http://blogs.msdn.com/b/aoakley/archive/2003/11/12/49645.aspx 我认为这不是最聪明的解决方案，但它能够工作。 - mati

2

作为包含HTML实体的字符串与escape或URI编码字符串不同，因此这些函数无法使用。 - Marcel Korpel

2

@Matias 注意，自2003年编写该函数以来，HTML（例如通过HTML 5规范）已添加了新的命名实体-例如，它无法识别“𝕫”。这是一个不断发展的规范问题；因此，您应选择一个实际正在维护的工具来解决它。 - Mark Amery

可能是如何使用jQuery解码HTML实体？的重复问题。 - lucascaro

我刚刚意识到很容易将这个问题与编码HTML实体混淆。我刚刚意识到我在这个问题上不小心发布了一个错误的答案！不过我已经删除了它。 - shreyasm-dev

34个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- cslotty · Answer 1

14

如果你像我一样在寻找它，那么现在有一个不错且安全的JQuery方法。

https://api.jquery.com/jquery.parsehtml/

你可以在控制台中键入以下内容：

var x = "test &amp;";
> undefined
$.parseHTML(x)[0].textContent
> "test &"

因此，$.parseHTML（x）返回一个数组，如果您的文本中有HTML标记，则数组长度将大于1。

- cslotty

1

如果 x 的值为 <script>alert('hello');</script>，上面的代码会崩溃。在当前的 jQuery 中，它实际上不会尝试运行脚本，但是 [0] 将产生 undefined，因此对 textContent 的调用将失败，并且您的脚本将在那里停止。 $('<div />').html(x).text(); 看起来更安全 - 来自 https://gist.github.com/jmblog/3222899 - Andrew Hodgkinson

@AndrewHodgkinson 是的，但问题是“在JavaScript中解码并返回&”-因此您首先要测试x的内容或确保仅在正确的情况下使用它。 - cslotty

我真的不明白这是怎么回事。上面的代码在所有情况下都能正常工作。你到底要如何“确保”x的值需要修复呢？如果上面的脚本示例警告了“&”，以至于它确实需要更正，那该怎么办呢？我们不知道OP的字符串来自哪里，因此必须考虑恶意输入的情况。 - Andrew Hodgkinson

@AndrewHodgkinson，我喜欢你的考虑，但这不是问题所在。不过，如果你愿意，可以回答那个问题。我猜你可以删除脚本标签，例如。 - cslotty

@SergioA。谢谢，完成了：https://dev59.com/o3I-5IYBdhLWcg3wVWpi#60645505 - Andrew Hodgkinson

显示剩余2条评论

- Jason Williams · Answer 2

jQuery会为您进行编码和解码，但您需要使用textarea标签，而不是div标签。

var str1 = 'One & two & three';
var str2 = "One &amp; two &amp; three";
  
$(document).ready(function() {
   $("#encoded").text(htmlEncode(str1)); 
   $("#decoded").text(htmlDecode(str2));
});

function htmlDecode(value) {
  return $("<textarea/>").html(value).text();
}

function htmlEncode(value) {
  return $('<textarea/>').text(value).html();
}

<script src="https://ajax.googleapis.com/ajax/libs/jquery/1.9.1/jquery.min.js"></script>

<div id="encoded"></div>
<div id="decoded"></div>

- KajMagnus · Answer 3

CMS的方法很好用，除非您想要反转义的HTML非常长，超过65536个字符。因为在Chrome中，内部HTML会被分成许多子节点，每个子节点最多只有65536个字符，并且您需要将它们连接起来。这个函数也适用于非常长的字符串：

function unencodeHtmlContent(escapedHtml) {
  var elem = document.createElement('div');
  elem.innerHTML = escapedHtml;
  var result = '';
  // Chrome splits innerHTML into many child nodes, each one at most 65536.
  // Whereas FF creates just one single huge child node.
  for (var i = 0; i < elem.childNodes.length; ++i) {
    result = result + elem.childNodes[i].nodeValue;
  }
  return result;
}

关于innerHTML最大长度的更多信息，请参见此答案：https://dev59.com/aErSa4cB1Zd3GeqPavvb#27545633

- Łukasz K · Answer 4

要在JavaScript中取消转义HTML实体，您可以使用小型库html-escaper：npm install html-escaper

*实体：指HTML中的特殊字符，例如：<表示小于号 (<)。

import {unescape} from 'html-escaper';

unescape('escaped string');

或者，如果你在使用它们，可以使用来自Lodash或Underscore的unescape函数。

*) 请注意，这些功能并不涵盖所有的HTML实体，只涵盖最常见的实体，即&、<、>、'和"。如果要取消转义所有HTML实体，您可以使用he库。

- Infoglaze.com · Answer 5

首先在页面中创建一个<span id="decodeIt" style="display:none;"></span>

接着，将待解码的字符串赋值给此标签的innerHTML属性：

document.getElementById("decodeIt").innerHTML=stringtodecode

最后，

stringtodecode=document.getElementById("decodeIt").innerText

以下是整个代码：

var stringtodecode="<B>Hello</B> world<br>";
document.getElementById("decodeIt").innerHTML=stringtodecode;
stringtodecode=document.getElementById("decodeIt").innerText

- Andrew Hodgkinson · Answer 6

这个问题没有明确说明x的来源，但如果可能的话，我们应该防御恶意的（或来自我们自己应用程序的）意外输入。例如，假设x的值为& <script>alert('hello');</script>。在jQuery中处理这种情况的一种安全而简单的方式是：

var x    = "&amp; <script>alert('hello');</script>";
var safe = $('<div />').html(x).text();

// => "& alert('hello');"

通过 https://gist.github.com/jmblog/3222899 发现此方法。鉴于该方法至少与某些替代方案一样短，并且可以提供防御XSS攻击的保护，我认为没有太多理由避免使用这个解决方案。

（我最初将其发布为评论，但由于同一线程中的后续评论要求我这样做，所以我将其添加为答案）。

- Ninh Pham · Answer 7

对于新手来说：

const htmlDecode = innerHTML => Object.assign(document.createElement('textarea'), {innerHTML}).value;

console.log(htmlDecode('Complicated - Dimitri Vegas &amp; Like Mike'));

- kender · Answer 8

虽然不是直接回答你的问题，但是如果你的RPC返回一些结构（无论是XML还是JSON等），并在该结构中包含这些图像数据（例如URL），那不是更好吗？

然后你只需在JavaScript中解析它，并使用JavaScript本身构建<img>。

从RPC收到的结构可能如下所示：

{"img" : ["myimage.jpg", "myimage2.jpg"]}

我认为这样做更好，因为将来自外部源的代码注入到您的页面中看起来并不太安全。想象一下有人劫持了您的XML-RPC脚本，并在其中放置了一些您不希望出现的内容（甚至是一些JavaScript...）

- Slavik Meltser · Answer 9

我知道这里有很多好的答案，但是由于我实施了一个略微不同的方法，所以想分享一下。

从安全角度考虑，这段代码是完全安全的，因为转义处理程序依赖于浏览器，而不是函数。因此，如果将来发现新的漏洞，这个解决方案也会得到覆盖。

const decodeHTMLEntities = text => {
    // Create a new element or use one from cache, to save some element creation overhead
    const el = decodeHTMLEntities.__cache_data_element 
             = decodeHTMLEntities.__cache_data_element 
               || document.createElement('div');
    
    const enc = text
        // Prevent any mixup of existing pattern in text
        .replace(/⪪/g, '⪪#')
        // Encode entities in special format. This will prevent native element encoder to replace any amp characters
        .replace(/&([a-z1-8]{2,31}|#x[0-9a-f]+|#\d+);/gi, '⪪$1⪫');

    // Encode any HTML tags in the text to prevent script injection
    el.textContent = enc;

    // Decode entities from special format, back to their original HTML entities format
    el.innerHTML = el.innerHTML
        .replace(/⪪([a-z1-8]{2,31}|#x[0-9a-f]+|#\d+)⪫/gi, '&$1;')
        .replace(/#⪫/g, '⪫');
   
    // Get the decoded HTML entities
    const dec = el.textContent;
    
    // Clear the element content, in order to preserve a bit of memory (it is just the text may be pretty big)
    el.textContent = '';

    return dec;
}

// Example
console.log(decodeHTMLEntities("<script>alert('&awconint;&CounterClockwiseContourIntegral;&#x02233;&#8755;⪪#x02233⪫');</script>"));
// Prints: <script>alert('∳∳∳∳⪪##x02233⪫');</script>

顺便说一下，我选择使用字符⪪和⪫，因为它们很少被使用，所以匹配它们对性能的影响显著降低。

- buycanna.io · Answer 10

你好，这是最初的回答。感谢您使用我们的服务。只是一个传递者，所有的功劳归于ourcodeworld.com，以下是链接。

window.htmlentities = {
        /**
         * Converts a string to its html characters completely.
         *
         * @param {String} str String with unescaped HTML characters
         **/
        encode : function(str) {
            var buf = [];

            for (var i=str.length-1;i>=0;i--) {
                buf.unshift(['&#', str[i].charCodeAt(), ';'].join(''));
            }

            return buf.join('');
        },
        /**
         * Converts an html characterSet into its original character.
         *
         * @param {String} str htmlSet entities
         **/
        decode : function(str) {
            return str.replace(/&#(\d+);/g, function(match, dec) {
                return String.fromCharCode(dec);
            });
        }
    };

最初的回答：

完整来源：https://ourcodeworld.com/articles/read/188/encode-and-decode-html-entities-using-pure-javascript

此文介绍了如何使用纯JavaScript编码和解码HTML实体。