我需要Unicode字符属性为“Alphabetic”的范围列表,其定义在http://www.unicode.org/Public/5.1.0/ucd/UCD.html#Alphabetic中。然而,无论我如何搜索Unicode字符数据库,都找不到它们。是否有人可以提供这些字符的列表或具有指定Unicode属性的字符的搜索功能?
Unicode字符数据库包括分布中所有文本文件,不像很久以前那样只有单一文件。
字母属性是一个派生属性。
你真的不应该使用代码点范围来进行操作。你需要正确地使用属性。这是因为这些属性太多了。仅在基本多语言平面中就有超过一万个,这还不包括汉字或韩文字母。通过使用unichars脚本,我们可以得知这个事实。
$ unichars '\p{Alphabetic}' | wc -l
10052
如果我们包括其他16个星界,现在我们就有14000个:
$ unichars -a '\p{Alphabetic}' | wc -l
14736
如果我们包括汉字和韩文字母,实际上 Unicode 的字母属性也是这么做的,那么我们将突破十万个码位的限制:
$ unichars -ua '\p{Alphabetic}' | wc -l
101539
希望您能认识到,您不需要使用码点范围来特定枚举它们。走这条路只会导致疯狂。
顺便提一下,如果您认为unichars脚本有用的话, 您可能还会喜欢uniprops脚本和uninames脚本。
unichars -ua '\p{Alphabetic}' | wc -l
)时,我得到了94332行而不是101539行。有什么原因吗? - Abe Voelkercorelist -a Unicode
将向您展示Perl版本与Unicode版本的配对情况。顺便说一句,我现在在我的Unicode工具箱中有 ,还有更多的东西即将到来。 - tchristautobundle
命令来升级所有事后安装的 CPAN 模块即可。 - tchrist可以从其他属性计算出派生核心属性。
字母属性的定义为:由Lu + Ll + Lt + Lm + Lo + Nl + Other_Alphabetic生成。
因此,如果您将Lu、Ll、Lt、Lm、Lo、Nl中的所有字符以及具有Other_Alphabetic属性的所有字符组合起来,就会得到字母字符。
我发现了UniView网络应用程序,它提供了一个漂亮的搜索界面。在未勾选本地化的情况下搜索Letter属性,可以得到14723个结果...