如何谈论Unicode字符
看起来你遇到了编码问题。你的Perl程序源代码中似乎包含Unicode字符。你需要使用以下编译指令(这是一个复杂的说法,它表示一个类似于编译器指令的小写模块名称):
use utf8;
将以下代码放在程序顶部,确保你使用的编辑器知道将其保存为UTF-8文本。你可以使用
file
命令来验证文件是否为UTF-8编码。
另一种不需要Perl源文件为UTF-8编码的方法是使用代码点号或Unicode字符名称代替文字。要获取命名的Unicode字符,请使用此编译指示:
use charnames qw[ :full ];
现在你可以使用
"\N{...}"
表示法来指代命名字符:
$pound_sign = "\N{POUND SIGN}";
$euro_sign = "\N{EURO SIGN}";
另一种方法是使用数字代码点(numeric code point),如果您知道它的话:
$pound_sign = chr(163);
$euro_sign = chr(0x20AC);
如果需要的话,您也可以在字符串和模式中使用确切的数字:
if ($text =~ /\xA3/) { … } # POUND SIGN
if ($text =~ /\x{20AC}/) { … } # EURO SIGN
这将使您无需在Perl源文件中放置非ASCII字符,这可能是一个好主意,尽管像这样的文字魔术数字可能不是。但是,您仍然需要考虑数据源采用某种编码方式。我假设它采用了某种Unicode编码,可能是UTF-8。希望它不是Oracle的CESU-8或Java的“修改版UTF-8”。
Unicode“Currency_Symbol”属性
检测由单个Unicode字符在文本中表示的任何任意货币符号的唯一正确方法是通过检测Unicode货币符号属性\p{Sc}
或\p{Currency_Symbol}
。
这些都是Unicode属性,是您可以在正则表达式中使用的字符类。
您会想要编写类似于以下内容的代码:
if ($curr =~ /^\p{Sc}$/) { ... }
但是要让它起作用,您必须从:utf8
编码的输入源中读取$curr
。在您自己的源代码中,您可以这样写:
use utf8;
在你打开的文件中,你需要说出以下其中一种:
use open qw[ :std :utf8 ];
open(my $new_handle, "< :encoding(utf8)", "/path/to/file")
|| die "can't open /path/to/file: $!";
binmode($already_opened_handle, ":encoding(utf8)")
|| die "can't binmode: $!";
从技术上讲,您应该在自己的源文件中使用
use utf8;
以外的
:encoding(utf8)
,这样就不会被欺骗了。别问我为什么☹。
如果您正在使用像
CGI.pm
或
XML::Simple
这样的模块,则它应该可以正常工作,但这取决于具体情况。
货币符号字符的属性如下:
% uniprops -vag € 'POUND SIGN'
U+20AC ‹€› \N{ EURO SIGN }:
\p{\pS} \p{\p{Sc}}
\p{All} \p{Any} \p{Assigned} \p{InCurrencySymbols} \p{Common} \p{Zyyy} \p{Currency_Symbol} \p{Sc} \p{S} \p{Gr_Base} \p{Grapheme_Base} \p{Graph}
\p{GrBase} \p{Print} \p{Symbol}
\p{Age:2.1} \p{Bidi_Class:ET} \p{Bidi_Class=European_Terminator} \p{Bidi_Class:European_Terminator} \p{Bc=ET} \p{Block:Currency_Symbols}
\p{Canonical_Combining_Class:0} \p{Canonical_Combining_Class=Not_Reordered} \p{Canonical_Combining_Class:Not_Reordered} \p{Ccc=NR}
\p{Canonical_Combining_Class:NR} \p{Script=Common} \p{General_Category=Currency_Symbol} \p{Decomposition_Type:None} \p{Dt=None} \p{East_Asian_Width:A}
\p{East_Asian_Width=Ambiguous} \p{East_Asian_Width:Ambiguous} \p{Ea=A} \p{General_Category:Currency_Symbol} \p{Gc=Sc} \p{General_Category:S}
\p{General_Category=Symbol} \p{General_Category:Sc} \p{General_Category:Symbol} \p{Gc=S} \p{Grapheme_Cluster_Break:Other} \p{GCB=XX}
\p{Grapheme_Cluster_Break:XX} \p{Grapheme_Cluster_Break=Other} \p{Hangul_Syllable_Type:NA} \p{Hangul_Syllable_Type=Not_Applicable}
\p{Hangul_Syllable_Type:Not_Applicable} \p{Hst=NA} \p{Joining_Group:No_Joining_Group} \p{Jg=NoJoiningGroup} \p{Joining_Type:Non_Joining} \p{Jt=U}
\p{Joining_Type:U} \p{Joining_Type=Non_Joining} \p{Line_Break:PR} \p{Line_Break=Prefix_Numeric} \p{Line_Break:Prefix_Numeric} \p{Lb=PR}
\p{Numeric_Type:None} \p{Nt=None} \p{Numeric_Value:NaN} \p{Nv=NaN} \p{Present_In:2.1} \p{In=2.1} \p{Present_In:3.0} \p{In=3.0} \p{Present_In:3.1}
\p{In=3.1} \p{Present_In:3.2} \p{In=3.2} \p{Present_In:4.0} \p{In=4.0} \p{Present_In:4.1} \p{In=4.1} \p{Present_In:5.0} \p{In=5.0} \p{Present_In:5.1}
\p{In=5.1} \p{Present_In:5.2} \p{In=5.2} \p{Script:Common} \p{Sc=Zyyy} \p{Script:Zyyy} \p{Sentence_Break:Other} \p{SB=XX} \p{Sentence_Break:XX}
\p{Sentence_Break=Other} \p{Word_Break:Other} \p{WB=XX} \p{Word_Break:XX} \p{Word_Break=Other}
U+00A3 ‹£› \N{ POUND SIGN }:
\p{\pS} \p{\p{Sc}}
\p{All} \p{Any} \p{Assigned} \p{InLatin1} \p{Common} \p{Zyyy} \p{Currency_Symbol} \p{Sc} \p{S} \p{Gr_Base} \p{Grapheme_Base} \p{Graph} \p{GrBase}
\p{Pat_Syn} \p{Pattern_Syntax} \p{PatSyn} \p{Print} \p{Symbol}
\p{Age:1.1} \p{Bidi_Class:ET} \p{Bidi_Class=European_Terminator} \p{Bidi_Class:European_Terminator} \p{Bc=ET} \p{Block:Latin_1}
\p{Block=Latin_1_Supplement} \p{Block:Latin_1_Supplement} \p{Blk=Latin1} \p{Canonical_Combining_Class:0} \p{Canonical_Combining_Class=Not_Reordered}
\p{Canonical_Combining_Class:Not_Reordered} \p{Ccc=NR} \p{Canonical_Combining_Class:NR} \p{Script=Common} \p{General_Category=Currency_Symbol}
\p{Decomposition_Type:None} \p{Dt=None} \p{East_Asian_Width:Na} \p{East_Asian_Width=Narrow} \p{East_Asian_Width:Narrow} \p{Ea=Na}
\p{General_Category:Currency_Symbol} \p{Gc=Sc} \p{General_Category:S} \p{General_Category=Symbol} \p{General_Category:Sc} \p{General_Category:Symbol}
\p{Gc=S} \p{Grapheme_Cluster_Break:Other} \p{GCB=XX} \p{Grapheme_Cluster_Break:XX} \p{Grapheme_Cluster_Break=Other} \p{Hangul_Syllable_Type:NA}
\p{Hangul_Syllable_Type=Not_Applicable} \p{Hangul_Syllable_Type:Not_Applicable} \p{Hst=NA} \p{Joining_Group:No_Joining_Group} \p{Jg=NoJoiningGroup}
\p{Joining_Type:Non_Joining} \p{Jt=U} \p{Joining_Type:U} \p{Joining_Type=Non_Joining} \p{Line_Break:PR} \p{Line_Break=Prefix_Numeric}
\p{Line_Break:Prefix_Numeric} \p{Lb=PR} \p{Numeric_Type:None} \p{Nt=None} \p{Numeric_Value:NaN} \p{Nv=NaN} \p{Present_In:1.1} \p{Age=1.1} \p{In=1.1}
\p{Present_In:2.0} \p{In=2.0} \p{Present_In:2.1} \p{In=2.1} \p{Present_In:3.0} \p{In=3.0} \p{Present_In:3.1} \p{In=3.1} \p{Present_In:3.2} \p{In=3.2}
\p{Present_In:4.0} \p{In=4.0} \p{Present_In:4.1} \p{In=4.1} \p{Present_In:5.0} \p{In=5.0} \p{Present_In:5.1} \p{In=5.1} \p{Present_In:5.2} \p{In=5.2}
\p{Script:Common} \p{Sc=Zyyy} \p{Script:Zyyy} \p{Sentence_Break:Other} \p{SB=XX} \p{Sentence_Break:XX} \p{Sentence_Break=Other} \p{Word_Break:Other}
\p{WB=XX} \p{Word_Break:XX} \p{Word_Break=Other}
查找所有 \p{Sc} 字符
以下是所有46个Unicode字符,具有Sc
(也称为Currency_Symbol
)属性,截至 Unicode 5.2 版本:(对于格式问题,我很抱歉;我相信这是由于方向性引起的)
% unichars -a '\p{Sc}' | wc -l
46
% unichars -a '\p{Sc}'
$ 36 000024 DOLLAR SIGN
¢ 162 0000A2 CENT SIGN
£ 163 0000A3 POUND SIGN
¤ 164 0000A4 CURRENCY SIGN
¥ 165 0000A5 YEN SIGN
؋ 1547 00060B AFGHANI SIGN
৲ 2546 0009F2 BENGALI RUPEE MARK
৳ 2547 0009F3 BENGALI RUPEE SIGN
৻ 2555 0009FB BENGALI GANDA MARK
૱ 2801 000AF1 GUJARATI RUPEE SIGN
௹ 3065 000BF9 TAMIL RUPEE SIGN
฿ 3647 000E3F THAI CURRENCY SYMBOL BAHT
៛ 6107 0017DB KHMER CURRENCY SYMBOL RIEL
₠ 8352 0020A0 EURO-CURRENCY SIGN
₡ 8353 0020A1 COLON SIGN
₢ 8354 0020A2 CRUZEIRO SIGN
₣ 8355 0020A3 FRENCH FRANC SIGN
₤ 8356 0020A4 LIRA SIGN
₥ 8357 0020A5 MILL SIGN
₦ 8358 0020A6 NAIRA SIGN
₧ 8359 0020A7 PESETA SIGN
₨ 8360 0020A8 RUPEE SIGN
₩ 8361 0020A9 WON SIGN
₪ 8362 0020AA NEW SHEQEL SIGN
₫ 8363 0020AB DONG SIGN
€ 8364 0020AC EURO SIGN
₭ 8365 0020AD KIP SIGN
₮ 8366 0020AE TUGRIK SIGN
₯ 8367 0020AF DRACHMA SIGN
₰ 8368 0020B0 GERMAN PENNY SIGN
₱ 8369 0020B1 PESO SIGN
₲ 8370 0020B2 GUARANI SIGN
₳ 8371 0020B3 AUSTRAL SIGN
₴ 8372 0020B4 HRYVNIA SIGN
₵ 8373 0020B5 CEDI SIGN
₶ 8374 0020B6 LIVRE TOURNOIS SIGN
₷ 8375 0020B7 SPESMILO SIGN
₸ 8376 0020B8 TENGE SIGN
꠸ 43064 00A838 NORTH INDIC RUPEE MARK
﷼ 65020 00FDFC RIAL SIGN
﹩ 65129 00FE69 SMALL DOLLAR SIGN
$ 65284 00FF04 FULLWIDTH DOLLAR SIGN
¢ 65504 00FFE0 FULLWIDTH CENT SIGN
£ 65505 00FFE1 FULLWIDTH POUND SIGN
¥ 65509 00FFE5 FULLWIDTH YEN SIGN
₩ 65510 00FFE6 FULLWIDTH WON SIGN
这里是BMP中尚未包含在Unicode 4.1中的字符集;请注意,您可以结合属性和否定来获取Unicode字符集。
% unichars --bmp '\p{Sc}' '\P{In:4.1}'
৻ 2555 09FB BENGALI GANDA MARK
₶ 8374 20B6 LIVRE TOURNOIS SIGN
₷ 8375 20B7 SPESMILO SIGN
₸ 8376 20B8 TENGE SIGN
꠸ 43064 A838 NORTH INDIC RUPEE MARK
如果您的系统上没有
unichars
和
uniprops
,请给我发邮件,我会把它们发送给您。它们是纯Perl编写的小型实用程序,不需要额外的模块。
else {if
的东西都应该改成elsif
,你觉得呢?另外,你还缺少一些}
。 - user181548$
写成'$'
而不是"\$"
,那么就不需要转义$
。单引号不会进行内插。 - Andy Lester