超过一个字母的拉丁字母的Unicode字符?

4

我不太确定如何表达,但我正在寻找超过一个视觉拉丁字母的Unicode字母。

到目前为止,在Word中我发现了以下内容:

  • DZ
  • Dz
  • dz
  • NJ
  • Lj
  • LJ
  • Nj
  • nj

还有其他的吗?


DŽDždž也是与Unicode相关的编程内容。 - phuclv
@Lưu Vĩnh Phúc - 不是真正的拉丁字符 - BlackMatrix
1个回答

9
以下是我发现的一些字符。最初,我通过查看一些可能的块手动完成了这个过程。但后来我编写了一个Python脚本来自动完成此操作,您可以在此答案的末尾找到。 二元字
两个字母 双字母组合 Unicode编码点 HTML实体
DZ, Dz, dz DZ, Dz, dz U+01F1 U+01F2 U+01F3 DZ Dz dz
DŽ, Dž, dž DŽ, Dž, dž U+01C4 U+01C5 U+01C6 DŽ Dž dž
IJ, ij IJ, ij U+0132 U+0133 IJ ij
LJ, Lj, lj LJ, Lj, lj U+01C7 U+01C8 U+01C9 LJ Lj lj
NJ, Nj, nj NJ, Nj, nj U+01CA U+01CB U+01CC NJ Nj nj

连字

非连字 连字 Unicode HTML
AA, aa Ꜳ, ꜳ U+A732, U+A733 Ꜳ ꜳ
AE, ae Æ, æ U+00C6, U+00E6 Æ æ
AO, ao Ꜵ, ꜵ U+A734, U+A735 Ꜵ ꜵ
AU, au Ꜷ, ꜷ U+A736, U+A737 Ꜷ ꜷ
AV, av Ꜹ, ꜹ U+A738, U+A739 Ꜹ ꜹ
AV, av(带横线) Ꜻ, ꜻ U+A73A, U+A73B Ꜻ ꜻ
AY, ay Ꜽ, ꜽ U+A73C, U+A73D Ꜽ ꜽ
et U+1F670 🙰
ff U+FB00 ff
ffi U+FB03 ffi
ffl U+FB04 ffl
fi U+FB01 fi
fl U+FB02 fl
OE, oe Œ, œ U+0152, U+0153 Œ œ
OO, oo Ꝏ, ꝏ U+A74E, U+A74F Ꝏ ꝏ
ſs, ſz ẞ, ß U+1E9E, U+00DF ß
st U+FB06 st
ſt U+FB05 ſt
TZ, tz Ꜩ, ꜩ U+A728, U+A729 Ꜩ ꜩ
ue U+1D6B &#x1

还有一些用于语音转录但看起来像拉丁字符的连字符

非连字 连字 Unicode HTML
db ȸ U+0238 ȸ
dz ʣ U+02A3 ʣ
IJ, ij IJ, ij U+0132, U+0133 IJ ij
ls ʪ U+02AA ʪ
lz ʫ U+02AB ʫ
qp ȹ U+0239 ȹ
ts ʦ U+02A6 ʦ
ui U+AB50 ꭐ
turned ui U+AB51 ꭑ

https://en.wikipedia.org/wiki/List_of_precomposed_Latin_characters_in_Unicode#Digraphs_and_ligatures


编辑:

除了℻和℡之外,还有更多的类字符,就像OP在评论中发现的那样:

℀ ℁ ⅍ ℅ ℆ ℔ ℠ ™

较长的字母主要来自CJK兼容性块。

U+XXXX 0 1 2 3 4 5 6 7 8 9 A B C D E F
U+338x
U+339x
U+33Ax
U+33Bx
U+33Cx
U+33Dx

这些类似于3个字母的符号中包括㎈、㎑、㎒、㎓、㎔、㏒、㏕、㏖、㏙、㎪、㎫、㎬、㎭、㏆、㏿、㍱... 可能最多字符的是㎉和㎯。

Unicode甚至为罗马数字设有代码点。在这里,另一个类似于4个字母的字符可以找到:Ⅷ。

U+XXXX 0 1 2 3 4 5 6 7 8 9 A B C D E F
U+215x
U+216x
U+217x
U+218x

(此处为HTML代码,无需翻译)
如果考虑常规数字,则在封闭式字母数字中有一些用于多位数的其他代码点,例如⒆、⒇、⓳、⓴。
U+XXXX 0 1 2 3 4 5 6 7 8 9 A B C D E F
U+246x
U+247x
U+248x
U+249x
U+24Ax
U+24Bx
U+24Cx Ⓟ并在封闭字母数字补充

, , , , , , , , , , , ,

还有一些:

货币符号组

₧ ₨ ₶ ₯ ₠ ₢ ₷

其他技术组

⎂ ⏨

控制图片(可能需要缩小才能看到)

U+XXXX 0 1 2 3 4 5 6 7 8 9 A B C D E F
U+240x
U+241x
U+242x

炼金术符号

音乐符号

这里还有表情符号 ™

竖线可能被认为是大写字母I或小写字母L(就像您的〷示例实际上是TELEGRAPH LINE FEED SEPARATOR SYMBOL),我们还有:

  • Vai音节see ꔖ 0xa516
  • 大三重竖杠运算符⫼ 0x2afc
  • 算盘十位数3:0x1d36b
  • 苏州数字〢〣
  • 中国河川川
  • ║盒绘制双竖线...

这是一个自动化脚本,用于查找多字符字母

import unicodedata

for c in range(0, 0x10FFFF + 1):
    d = unicodedata.normalize('NFKD', chr(c))
    if len(d) > 1 and d.isascii() and d.isalpha():
        print("U+%04X (%s): %s\n" % (c, chr(c), d))

它无法找到像æ或œ这样的许多连字,因为它们不被视为正字法连字并且在Unicode中无法分解。以下是Unicode 11.0.0中的结果(使用unicodedata.unidata_version进行检查)

U+0132 (IJ): IJ
U+0133 (ij): ij
U+01C7 (LJ): LJ
U+01C8 (Lj): Lj
U+01C9 (lj): lj
U+01CA (NJ): NJ
U+01CB (Nj): Nj
U+01CC (nj): nj
U+01F1 (DZ): DZ
U+01F2 (Dz): Dz
U+01F3 (dz): dz
U+20A8 (₨): Rs
U+2116 (№): No
U+2120 (℠): SM
U+2121 (℡): TEL
U+2122 (™): TM
U+213B (℻): FAX
U+2161 (Ⅱ): II
U+2162 (Ⅲ): III
U+2163 (Ⅳ): IV
U+2165 (Ⅵ): VI
U+2166 (Ⅶ): VII
U+2167 (Ⅷ): VIII
U+2168 (Ⅸ): IX
U+216A (Ⅺ): XI
U+216B (Ⅻ): XII
U+2171 (ⅱ): ii
U+2172 (ⅲ): iii
U+2173 (ⅳ): iv
U+2175 (ⅵ): vi
U+2176 (ⅶ): vii
U+2177 (ⅷ): viii
U+2178 (ⅸ): ix
U+217A (ⅺ): xi
U+217B (ⅻ): xii
U+3250 (㉐): PTE
U+32CC (㋌): Hg
U+32CD (㋍): erg
U+32CE (㋎): eV
U+32CF (㋏): LTD
U+3371 (㍱): hPa
U+3372 (㍲): da
U+3373 (㍳): AU
U+3374 (㍴): bar
U+3375 (㍵): oV
U+3376 (㍶): pc
U+3377 (㍷): dm
U+337A (㍺): IU
U+3380 (㎀): pA
U+3381 (㎁): nA
U+3383 (㎃): mA
U+3384 (㎄): kA
U+3385 (㎅): KB
U+3386 (㎆): MB
U+3387 (㎇): GB
U+3388 (㎈): cal
U+3389 (㎉): kcal
U+338A (㎊): pF
U+338B (㎋): nF
U+338E (㎎): mg
U+338F (㎏): kg
U+3390 (㎐): Hz
U+3391 (㎑): kHz
U+3392 (㎒): MHz
U+3393 (㎓): GHz
U+3394 (㎔): THz
U+3396 (㎖): ml
U+3397 (㎗): dl
U+3398 (㎘): kl
U+3399 (㎙): fm
U+339A (㎚): nm
U+339C (㎜): mm
U+339D (㎝): cm
U+339E (㎞): km
U+33A9 (㎩): Pa
U+33AA (㎪): kPa
U+33AB (㎫): MPa
U+33AC (㎬): GPa
U+33AD (㎭): rad
U+33B0 (㎰): ps
U+33B1 (㎱): ns
U+33B3 (㎳): ms
U+33B4 (㎴): pV
U+33B5 (㎵): nV
U+33B7 (㎷): mV
U+33B8 (㎸): kV
U+33B9 (㎹): MV
U+33BA (㎺): pW
U+33BB (㎻): nW
U+33BD (㎽): mW
U+33BE (㎾): kW
U+33BF (㎿): MW
U+33C3 (㏃): Bq
U+33C4 (㏄): cc
U+33C5 (㏅): cd
U+33C8 (㏈): dB
U+33C9 (㏉): Gy
U+33CA (㏊): ha
U+33CB (㏋): HP
U+33CC (㏌): in
U+33CD (㏍): KK
U+33CE (㏎): KM
U+33CF (㏏): kt
U+33D0 (㏐): lm
U+33D1 (㏑): ln
U+33D2 (㏒): log
U+33D3 (㏓): lx
U+33D4 (㏔): mb
U+33D5 (㏕): mil
U+33D6 (㏖): mol
U+33D7 (㏗): PH
U+33D9 (㏙): PPM
U+33DA (㏚): PR
U+33DB (㏛): sr
U+33DC (㏜): Sv
U+33DD (㏝): Wb
U+33FF (㏿): gal
U+FB00 (ff): ff
U+FB01 (fi): fi
U+FB02 (fl): fl
U+FB03 (ffi): ffi
U+FB04 (ffl): ffl
U+FB05 (ſt): st
U+FB06 (st): st
U+1F12D (): CD
U+1F12E (): WZ
U+1F14A (): HV
U+1F14B (): MV
U+1F14C (): SD
U+1F14D (): SS
U+1F14E (): PPV
U+1F14F (): WC
U+1F16A (): MC
U+1F16B (): MD
U+1F190 (): DJ

还有更多吗?找到了℻和℡。 - BlackMatrix
〷和㍴也不错。最长的拉丁字母是什么? - BlackMatrix
@BlackMatrix请看上面。这取决于你如何定义“最长”。如果是指字符长度,那么可能的候选者是㎉、㎯和Ⅷ。 - phuclv
太棒了。非常好的回答 :) - BlackMatrix

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接