有没有一种通用术语来称呼ASCII范围之上(十进制编号大于127)的Unicode字符?
我曾看到这些被称为“扩展ASCII”和“Unicode字符”,但这两者都不太满意。
(“扩展ASCII”没有明确定义,错误地暗示了对ASCII标准的“扩展”,而且历史上只涵盖了255以内的字符,而不是整个Unicode范围。“Unicode”则暗示ASCII字符不属于Unicode,这是不正确的)
有没有一种通用术语来称呼ASCII范围之上(十进制编号大于127)的Unicode字符?
我曾看到这些被称为“扩展ASCII”和“Unicode字符”,但这两者都不太满意。
(“扩展ASCII”没有明确定义,错误地暗示了对ASCII标准的“扩展”,而且历史上只涵盖了255以内的字符,而不是整个Unicode范围。“Unicode”则暗示ASCII字符不属于Unicode,这是不正确的)
Unicode 中的 144,697 个字符被组织成 数十 个逻辑分组,称为 块。
在 Unicode 中,定义的 128 个字符属于遗留编码 US-ASCII,它们被称为 基本拉丁 块。Unicode 是 US-ASCII 的超集。
因此,对于剩下的 144,569 个字符,没有特别的名称。如果你指的是 泰语 字符,那么它们可以在 泰语 块中找到。如果你指的是 切罗基 字符,那么它们可以在 切罗基 块中找到。以此类推。
我不知道任何官方术语。有些人可能会说“非ASCII”。个人而言,我会说“超出US-ASCII”,其中“超出”指的是高于127个十进制码点的数字范围。是否有一个公认的术语来指代Unicode字符,这些字符位于ASCII范围以上(超过127个十进制码点)?
我曾经看到这些被称为“扩展ASCII”和“Unicode字符”,但两者都不令人满意。
标签{{link1:“扩展ASCII”}}是非官方的、模糊的和无用的。该术语通常指各种预Unicode 8位 字符编码 中位置0到255的位置。有许多“扩展ASCII”编码。因此,当讨论Unicode时,建议避免使用此术语。我认为,在2022年,我们可以将所有这些“扩展ASCII”编码视为遗留。
至于“Unicode字符”,Unicode中定义的所有144,697个字符都是“Unicode字符”,包括US-ASCII的128个字符。(再次强调,Unicode是US-ASCII的超集。)因此,将这些144,697个字符的任何子集称为“Unicode字符”是愚蠢和无用的。