Unicode拉丁小写下标字母列表

4
2个回答

3
Unicode是用于将字符/字形映射到数字之间的字符集。它只涉及纯文本,不适用于格式化文本§。您不能使用Unicode代码点使一个字母变粗、倾斜,或者将字母移动到基线上方下方(请参见使用组合字形创建Unicode下标和上标)。
存在似乎表示格式的字符主要是因为它们在旧标准中被使用过。您可以在Unicode标准中找到原因。 问:为什么Unicode没有完整的上标和下标字符集? 答:Unicode编码的上标和下标字符要么是兼容性字符,用于从旧标准中转换数据的往返转换,要么是与特定含义一起使用的修饰符字母,例如IPA和UPA等技术转录系统中。这些字符不适用于任意文本字符串的一般上标或下标 - 对于这种文本效果,您应使用富文本中的文本样式或标记。 https://www.unicode.org/faq/ligature_digraph.html

兼容性也是为什么上标数字²³¹非常频繁地与其余字符⁰⁴⁵⁶⁷⁸⁹不同的原因,因为许多字体只包含前者而不包含后者。而且¹位于²³后面,因为ISO 8859-1就是这样做的。

事实上,几乎所有看起来在Unicode中似乎愚蠢的东西都是为了兼容旧字符集。你可以找到很多例子,其中有一个不必要的Unicode码点代表一系列字符,例如Nj、Dž、Ⅷ、㎉、㎓和﷽。同样地,还有许多不合理的表情符号,比如“版权” ©️、“注册商标” ®️ 和“商标” ™️ 符号。人们在其他字符集中使用它们,因此Unicode也必须这样做,以便能够成功地进行转换。

§ 关于Unicode中的富文本的更多信息:

富文本。也称为样式文本。将信息添加到纯文本中的结果。可以添加的信息示例包括字体数据、颜色、格式化信息、音标注释、交错文本等等。 Unicode标准没有涉及富文本的表示。预计系统和应用程序将实现专有的富文本形式。一些公共形式的富文本是可用的(例如ODA、HTML和SGML)。从富文本中删除除主要内容以外的所有内容后,只应剩下纯文本。

https://unicode.org/glossary/#rich_text (重点在我)

问:什么是“富文本”和“纯文本”的区别? 答:富文本是具有所有格式信息的文本:字体、字号、粗细、字距等等。纯文本是应用格式的基础内容流。
两者之间的一个关键区别在于,富文本将文本分解为运行并对每个运行应用统一的格式。因此,富文本天然具有状态。纯文本没有状态。可以在不影响呈现的情况下丢失纯文本块的前半部分。
Unicode只处理纯文本,这是它的设计原则。它没有提供解决富文本问题的通用解决方案。 https://www.unicode.org/faq/ligature_digraph.html

2

Unicode不涉及格式设置,它认为下标(和上标)是格式设置,因此不受支持。不幸的是,在HTML中有不同的观点(例如,在select/option标签中)。

Unicode下标大多数是因为与旧字符集的兼容性而存在,Unicode希望与1991年之前创建的大多数字符集兼容。

所以你知道了为什么会缺少许多下标/上标。好消息是,遵循Unicode建议,你应该能够将所有字符(并采用不同的格式)作为下标/上标(以及双重、三重下标)。

如果你想获得更好的支持(以及所有字符),应使用其他格式设置技术。很抱歉无法给您带来好消息。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接