哪些字符不包含在Unicode中?

16

我听说一些区域的人口虽然在日常生活中使用某些字符,但这些字符并未包含在Unicode标准中。尤其是我听说了最近由现有字符部首组合而成的中国名字,但我无法找到任何相关信息。

例如,下面的这个字符对于五千万人来说非常常见,但直到2009年10月之前它才被添加到Unicode中:

enter image description here

是否有这样的字符列表?(包括图像或列出此类字符的网站)


这个:http://en.wikipedia.org/wiki/File:Prince_logo.svg 虽然更像是宣传噱头而不是一个真正的角色。 - Piskvor left the building
4个回答

9

8

好的,Unicode 中还有很多东西缺失(虽然仍在不断添加新字符)。

以下是一些例子:

  • 由于汉字统一, Unicode在表示来自不同语言的几个相似字符时使用一个代码点。人们对这些字符是否真正“相同”存在争议;如果您认为它们应该分别表示,则可以说这些单独的表示形式“缺失”(尽管这是一个哲学问题)。
  • 同样,许多语言(特别是亚洲语言)有时会有一个字符/字形的几种变体。 “具有几个表示形式的一个字符”(=一个代码点)和“不同字符”(=不同的代码点)之间的区别有些随意,因此在某些情况下(例如汉字字符),某些人认为替代变体“缺失”。
  • 许多历史上很少使用的字符缺失。
  • 许多旧的/历史脚本未被覆盖,例如德摩提克语。实际上,有一个专门用于在Unicode中包含更多脚本的计划,即脚本编码倡议(SEI)。

W3C也有一篇关于这个主题的页面,缺失字符和字形,其中有更多的解释。


3
我认为大约有260个变量选择器旨在解决前两个问题。它们的代码点是180B–180D(简称FVS1–3),303E(ɪᴅᴇᴏɢʀᴀᴘʜɪᴄ ᴠᴀʀɪᴀᴛɪᴏɴ sᴇʟᴇᴄᴛᴏʀ,IVS),FE00–FE0F(VS1–VS16)和E0100–E01EF(VS17–VS256)。实际上,IVS与其他变量选择器不同:它被视为\p{Other_Symbol}\p{Grapheme_Base},而其他变量选择器则为\p{Nonspacing_Mark}\p{Grapheme_Extend}\p{Default_Ignorable_Code_Point}\p{Variation_Selector}。我不知道IVS的真正用途。从脚本方面来看,FVS1–3是\p{Mongolian},IVS是\p{Common},而VS1–256是\p{Inherited}。希望对你有帮助。 - tchrist

3
有很多符号在标准的符号部分中,令人恼火的是它们没有被包括在内。
请参阅“缺失对称版本”部分,网址为 https://web.archive.org/web/20210830121541/http://xahlee.info/comp/unicode_arrows.html,其中有一堆箭头符号存在,但只是在某些方向上存在。其中有些很愚蠢。例如,有 ⥂、⥃ 和 ⥄,但最后一个方向缺少指向右的版本。
http://en.wikipedia.org/wiki/Unicode_subscripts_and_superscripts 可以看出,他们似乎随机选择了要支持的字母形式。例如,他们包括下标元音字母 a、e、o,甚至 schwa (ə),但没有 i,这个字符在数学排版中会非常有用。请查看维基百科文章以获取更多详细信息(您需要安装 Unicode 字体,因为至少在撰写本文时,常规 ASCII 等效项并未明确列出),但基本上他们似乎随机选择了半个拉丁字母表作为每个大写和小写上下标字符。
此外,用于构建形状的许多符号在 Unicode 中并不存在,这会非常不方便。

1
它不支持双唇振动音字母、倒置的贝塔和反转的k。

1
谢谢!双唇颤音字母有一些人写吗?反向β和反转k也经常被一些人书写吗? - Nicolas Raoul
起初我不确定这是一个认真的答案还是开玩笑提到了虚构的字母。添加一个链接或一点解释确实会有所改善;我找到了维基百科关于无声双唇颤音的页面(Voiced bilabial trill 显然有一个Unicode符号),但找不到任何关于其他引用字母的信息。 - lfurini

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接