Unicode拉丁小写下标字母列表

Question

Unicode拉丁小写下标字母列表

unicodeformattingcharactersubscript

4

感谢jmcnamara，我找到了在xlsxwriter图表中使用Unicode字符的好方法：xlsxwrter：图表标题中的富文本格式

我需要一个所有Unicode字符的列表进行复制。我找到了一些：

为什么没有大写下标字母的字母表？我在哪里可以获得它们？

- masterofpuppets

2个回答

2

Unicode不涉及格式设置，它认为下标（和上标）是格式设置，因此不受支持。不幸的是，在HTML中有不同的观点（例如，在select/option标签中）。

Unicode下标大多数是因为与旧字符集的兼容性而存在，Unicode希望与1991年之前创建的大多数字符集兼容。

所以你知道了为什么会缺少许多下标/上标。好消息是，遵循Unicode建议，你应该能够将所有字符（并采用不同的格式）作为下标/上标（以及双重、三重下标）。

如果你想获得更好的支持（以及所有字符），应使用其他格式设置技术。很抱歉无法给您带来好消息。

- Giacomo Catenazzi

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- phuclv · Accepted Answer

Unicode是用于将字符/字形映射到数字之间的字符集。它只涉及纯文本，不适用于格式化文本^§。您不能使用Unicode代码点使一个字母变粗、倾斜，或者将字母移动到基线^上方或_下方（请参见使用组合字形创建Unicode下标和上标）。

存在似乎表示格式的字符主要是因为它们在旧标准中被使用过。您可以在Unicode标准中找到原因。 问：为什么Unicode没有完整的上标和下标字符集？ 答：Unicode编码的上标和下标字符要么是兼容性字符，用于从旧标准中转换数据的往返转换，要么是与特定含义一起使用的修饰符字母，例如IPA和UPA等技术转录系统中。这些字符不适用于任意文本字符串的一般上标或下标 - 对于这种文本效果，您应使用富文本中的文本样式或标记。 https://www.unicode.org/faq/ligature_digraph.html

兼容性也是为什么上标数字²³¹非常频繁地与其余字符⁰⁴⁵⁶⁷⁸⁹不同的原因，因为许多字体只包含前者而不包含后者。而且¹位于²³后面，因为ISO 8859-1就是这样做的。

事实上，几乎所有看起来在Unicode中似乎愚蠢的东西都是为了兼容旧字符集。你可以找到很多例子，其中有一个不必要的Unicode码点代表一系列字符，例如ǋ、ǅ、Ⅷ、㎉、㎓和﷽。同样地，还有许多不合理的表情符号，比如“版权” ©️、“注册商标” ®️ 和“商标” ™️ 符号。人们在其他字符集中使用它们，因此Unicode也必须这样做，以便能够成功地进行转换。

^§ 关于Unicode中的富文本的更多信息：

富文本。也称为样式文本。将信息添加到纯文本中的结果。可以添加的信息示例包括字体数据、颜色、格式化信息、音标注释、交错文本等等。 Unicode标准没有涉及富文本的表示。预计系统和应用程序将实现专有的富文本形式。一些公共形式的富文本是可用的（例如ODA、HTML和SGML）。从富文本中删除除主要内容以外的所有内容后，只应剩下纯文本。

https://unicode.org/glossary/#rich_text （重点在我）

问：什么是“富文本”和“纯文本”的区别？ 答：富文本是具有所有格式信息的文本：字体、字号、粗细、字距等等。纯文本是应用格式的基础内容流。

两者之间的一个关键区别在于，富文本将文本分解为运行并对每个运行应用统一的格式。因此，富文本天然具有状态。纯文本没有状态。可以在不影响呈现的情况下丢失纯文本块的前半部分。

Unicode只处理纯文本，这是它的设计原则。它没有提供解决富文本问题的通用解决方案。 https://www.unicode.org/faq/ligature_digraph.html