实际使用中最常见的非BMP Unicode字符是什么?

126

根据你的经验,目前在BMP(基本多语言平面)之外的Unicode字符、代码点和范围中,哪些是最常见的?这些字符需要在UTF-8中占用4个字节或在UTF-16中使用代理项。

我本以为答案应该是用于名称中但未包含在最广泛CJK多字节字符集中的中日韩汉字,但在我主要工作的项目——英文维基词典上,我们发现哥特字母表到目前为止更加常见。

更新

我编写了几个软件工具来扫描整个维基百科以寻找非BMP字符,并惊奇地发现即使在日文维基百科中,哥特字母表也是最常见的。这也适用于中文维基百科,但其中还有许多汉字被使用50或70次,包括“”、“”和“”。


1
@hippietrail:主要问题在于答案将取决于您处理的文本类型。如果您正在进行考古项目,编目线性B中的文本,您将看到不同于现代日语词典的非BMP字符。因此,如果不至少缩小文本类型范围,这绝对太宽泛了。 - sleske
1
就我个人而言,我认为这个问题并不太宽泛,我希望能保持它的开放性。 - Flimm
3个回答

116

Emoji现在是迄今为止最常见的非BMP字符,也就是U+1F602 FACE WITH TEARS OF JOY,在Twitter的公共流中是最常见的一个。它出现的频率比波浪符还要高!


5
根据http://www.emojitracker.com/的数据显示,这确实是Twitter上使用最普遍的非BMP表情符号。 - Frédéric Grosshans
2
顺便说一下,我一直在查看Common Crawl上文本使用的统计数据,并发现现在表情符号也是Web上最常见的非BMP字符。当然,它们不像在Twitter上那么常见。仍然是最常见的一个。 - rspeer
1
@Quuxplusone 来源:http://www.emojistats.org - niutech

74

非常好的问题!

答案是数学符号。去年12月,我对整个PubMed开放获取语料库进行了扫描,并得出了其中星座字符的以下数字。

下面数字中的第一个数字是我在整个语料库中发现的每个给定代码点的副本数。但首先,为了让您了解相对频率,以下是该语料库中前十个转ASCII代码点:

 2663710 U+002013 ‹–›  GC=Pd    EN DASH
 1065594 U+0000A0 ‹ ›  GC=Zs    NO-BREAK SPACE
 1009762 U+0000B1 ‹±›  GC=Sm    PLUS-MINUS SIGN
  784139 U+002212 ‹−›  GC=Sm    MINUS SIGN
  602377 U+002003 ‹ ›  GC=Zs    EM SPACE
  528576 U+0003BC ‹μ›  GC=Ll    GREEK SMALL LETTER MU
  519669 U+0003B2 ‹β›  GC=Ll    GREEK SMALL LETTER BETA
  512312 U+0003B1 ‹α›  GC=Ll    GREEK SMALL LETTER ALPHA
  491842 U+00200A ‹ ›  GC=Zs    HAIR SPACE
  462505 U+0000B0 ‹°›  GC=So    DEGREE SIGN

以下是按降序排列的跨BMP代码点:

     544 U+01D49E ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL C
     450 U+01D4AF ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL T
     385 U+01D4AE ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL S
     292 U+01D49F ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL D
     285 U+01D4B3 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL X
     262 U+01D4A9 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL N
     258 U+01D4AB ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL P
     254 U+01D4A2 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL G
     185 U+01D49C ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL A
     178 U+01D53C ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL E
     137 U+01D4AA ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL O
      56 U+01D4A5 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL J
      48 U+01D4A6 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL K
      44 U+01D4B1 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL V
      43 U+01D4B2 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL W
      42 U+01D4B4 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Y
      41 U+01D4B5 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Z
      35 U+01D4B0 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL U
      30 U+01D4AC ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Q
      23 U+01D54A ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL S
      21 U+01D539 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL B
      19 U+01D5A7 ‹›  GC=Lu    MATHEMATICAL SANS-SERIF CAPITAL H
      18 U+01D517 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL T
      15 U+01D4C3 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL N
      14 U+01D535 ‹›  GC=Ll    MATHEMATICAL FRAKTUR SMALL X
      13 U+01D4BF ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL J
      11 U+01D540 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL I
       9 U+01D465 ‹›  GC=Ll    MATHEMATICAL ITALIC SMALL X
       9 U+01D4CE ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL Y
       9 U+01D538 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL A
       8 U+01D4C2 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL M
       8 U+01D54D ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL V
       7 U+01D4B6 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL A
       7 U+01D4BE ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       7 U+01D4BE ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       4 U+01D4CF ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL Z
       4 U+01D53B ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL D
       4 U+01D54B ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL T
       3 U+01D4BB ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL F
       3 U+01D4CA ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL U
       3 U+01D507 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL D
       3 U+01D542 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL K
       3 U+01D546 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL O
       2 U+01D4BD ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL H
       2 U+01D4C5 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL P
       2 U+01D505 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL B
       2 U+01D50E ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL K
       2 U+01D541 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL J
       2 U+01D543 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL L
       2 U+100002 ‹›  GC=Co    <private use character>
       1 U+01D4B8 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL C
       1 U+01D4C1 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL L
       1 U+01D53D ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL F
       1 U+01D53E ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL G
       1 U+01D54C ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL U
       1 U+01D6A4 ‹›  GC=Ll    MATHEMATICAL ITALIC SMALL DOTLESS I
       1 U+01D7D9 ‹›  GC=Nd    MATHEMATICAL DOUBLE-STRUCK DIGIT ONE

我真希望知道他们使用U+100002做什么。:(

如果你的浏览器里没有显示出来,你应该安装George Douros's Symbola字体或者其他镜像下载。它还包含了所有有趣的Unicode 6.0.0代码点。


9

对于我来说,数学字母符号是用于OpenType字体(如Cambria Math)的数学排版。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接