HTML 5中哪些字符需要转义？

Question

HTML 5中哪些字符需要转义？

26

HTML 4规定了需要转义的特殊字符，这里有详细说明:

以下四个实体引用由于经常用于转义特殊字符，因此需要特别提及：

"<"代表 < 符号。

">"代表 > 符号。

"&"代表 & 符号。

""代表 " 符号。

如果作者希望在文本中使用字符“<”，应使用“<”（ASCII十进制60），以避免可能会将其误认为是标签开始定界符（起始标记开放定界符）。同样，作者应该在文本中使用“>”（ASCII十进制62）而不是“>”，以避免旧的用户代理错误地将其视为标签结束定界符（标记关闭定界符）出现在引号包含的属性值中时。

作者应该使用“&”（ASCII十进制38）而不是“&”以避免与字符引用（实体引用开放定界符）的开头混淆。在CDATA属性值中允许使用字符引用，因此作者还应在属性值中使用“&”。

一些作者使用字符实体引用“"”来编码双引号（"）的实例，因为该字符可能用于定界属性值。

我惊讶地发现在HTML 5中找不到类似的内容。通过grep的帮助，我唯一找到的非XML提及是关于已废弃的XMP元素的旁白：

改用pre和code标签，并将“<” 和 “&”字符转义为“<”和“&”。

有人可以指出官方的资料吗？

- ezequiel-garzon

在语义不明确时需要转义字符。因此，在双引号属性中的 " 和单引号属性中的 ' （显然是含糊的），以及文本外的 '<' （有时只有含糊，但仍会导致验证错误）都需要进行转义。 <b>2 > 1</b> 是有效的HTML5格式。& 在含糊时也是一个错误。 - Ry-

谢谢，但是...我仍然觉得这一切都有道理，但没有规范的部分涉及它。毕竟，HTML并不是非常适合“有意义”的指导。（比如，<p>可以明确地关闭前一个段落中所有打开的<em>和<strong>标签等）。为什么会有这种遗漏，而花时间去“除非元素的第一件事是注释”。感觉像是一个重大疏忽。 - ezequiel-garzon

我不确定这与转义规则有什么关系，但自动纠正未关闭的标签以形成可识别的树形结构是出于历史原因必须存在的。 - Ry-

我的意思是，我在我的例子中并不是在寻找令人信服的理由或常识，因为HTML具有（与XML不同）高度的任意性。相反，我正在寻找一个来源，你很友好地提供了它。再次感谢。 - ezequiel-garzon

这个回答解决了你的问题吗？在HTML中哪些字符需要转义？ - Dan Dascalescu

3个回答

6

来自http://www.w3.org/html/wg/drafts/html/master/single-page.html#serializing-html-fragments

转义字符串（为了上述算法的目的）包括执行以下步骤：

将任何"&"字符的出现替换为字符串"&"。

将U+00A0 NO-BREAK SPACE字符的任何出现替换为字符串" "。

如果在属性模式下调用算法，则将"""字符的任何出现替换为字符串"""。

如果未在属性模式下调用算法，则将"<"字符的任何出现替换为字符串"<"，将">"字符的任何出现替换为字符串">"。

* 算法是内置的序列化算法，例如通过innerHTML getter调用。

严格来说，这并不完全回答你的问题，因为它涉及序列化而不是解析。但另一方面，序列化输出旨在安全可解析。因此，暗示着在编写标记时：