Unicode字符在\u0003和\u00ff之间。

4

我有一段Java代码,它正在检查是否位于两个Unicode字符之间:

LA(2) >= '\u0003' && LA(2) <= '\u00ff'

我知道 \u0003 代表的是文本结束标志(END OF TEXT),而\u00ff 则是带分音符的小写拉丁字母y(LATIN SMALL LETTER Y WITH DIAERESIS),但它们之间的内容是什么呢?(它检查的是LA(2)是否为什么?)
比如,它是所有拉丁字符、数字符号、带重音符号的字符、所有ASCII字符,还是其他某些东西吗?

1
请自行查阅Unicode码表(PDF)。 - Kerrek SB
3个回答

4
这是 Latin 1 减去 U+0000、U+0001 和 U+0002 的码位。其中包括美国键盘上常见的内容,大量控制字符(低于 U+0020 和在 U+007F 到 U+009F 之间),以及一些其他的拉丁字符,可以用来书写大多数西欧语言。

enter image description here


2

0

这是基本的Latin1字符集,除了前三个代码。

0x0000 - 0x007F : Basic Latin (128)
0x0080 - 0x00FF : Latin-1 Supplement (128)

这段代码可能检查字符是否可以作为单字节字符输出(Latin1编码)。


字符集被称为Latin 1,基本的拉丁文只是Unicode中的ASCII码块,正如你所指出的那样。但是,并不存在“Basic Latin 1”这样的东西。 - Joey
我不知道你为什么写那个。 - Karoly Horvath
因为你在回答的第一句话中使用的术语不清晰且技术上不正确。 - Joey

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接