如何在Perl中识别货币符号?

4

我在处理这个问题时遇到了一些困难。

我正在读取一些文本并尝试从中提取价格。我已经完成了这个部分,但是我正在尝试编写一些代码,使用类似于以下if语句来确定文本中符号所代表的货币名称:

if ($curr eq "\$"){
print CURRENCY "Currency: Dollars($curr)\n";
}
else {if($curr eq "£"){
print CURRENCY  "Currency: Pounds($curr)\n";
}
else {if($curr eq "€"){
print CURRENCY  "Currency: Euros($curr)\n";
}

现在这个方法可以用于美元符号$(必须进行转义),但无法用于英镑符号或欧元符号。我猜测这与Unicode编码或类似的问题有关,因为根据我尝试通过谷歌搜索解决该问题的经验,我找到的内容都没有太大帮助。我想知道是否有人能在这里帮助我!


2
有不止一种方法可以做到这一点,但我建议那些 else {if 的东西都应该改成 elsif,你觉得呢?另外,你还缺少一些 } - user181548
1
如果你把 $ 写成 '$' 而不是 "\$",那么就不需要转义 $。单引号不会进行内插。 - Andy Lester
@Kinopiko 我刚刚复制并粘贴了一段代码片段来说明问题 - 显然我错过了复制几个闭合的 } 符号! - Drake
4个回答

14

如何谈论Unicode字符

看起来你遇到了编码问题。你的Perl程序源代码中似乎包含Unicode字符。你需要使用以下编译指令(这是一个复杂的说法,它表示一个类似于编译器指令的小写模块名称):

use utf8;

将以下代码放在程序顶部,确保你使用的编辑器知道将其保存为UTF-8文本。你可以使用file命令来验证文件是否为UTF-8编码。

另一种不需要Perl源文件为UTF-8编码的方法是使用代码点号或Unicode字符名称代替文字。要获取命名的Unicode字符,请使用此编译指示:

use charnames qw[ :full ];

现在你可以使用"\N{...}"表示法来指代命名字符:
$pound_sign = "\N{POUND SIGN}";
$euro_sign  = "\N{EURO SIGN}";

另一种方法是使用数字代码点(numeric code point),如果您知道它的话:
$pound_sign = chr(163);
$euro_sign  = chr(0x20AC);

如果需要的话,您也可以在字符串和模式中使用确切的数字:

if ($text =~ /\xA3/) { … }     # POUND SIGN

if ($text =~ /\x{20AC}/) { … } # EURO SIGN

这将使您无需在Perl源文件中放置非ASCII字符,这可能是一个好主意,尽管像这样的文字魔术数字可能不是。但是,您仍然需要考虑数据源采用某种编码方式。我假设它采用了某种Unicode编码,可能是UTF-8。希望它不是Oracle的CESU-8或Java的“修改版UTF-8”。

Unicode“Currency_Symbol”属性

检测由单个Unicode字符在文本中表示的任何任意货币符号的唯一正确方法是通过检测Unicode货币符号属性\p{Sc}\p{Currency_Symbol}

这些都是Unicode属性,是您可以在正则表达式中使用的字符类。

您会想要编写类似于以下内容的代码:

if ($curr =~ /^\p{Sc}$/) { ... }

但是要让它起作用,您必须从:utf8编码的输入源中读取$curr。在您自己的源代码中,您可以这样写:

use utf8;

在你打开的文件中,你需要说出以下其中一种:

# put at the top of your file and be done with it
use open qw[ :std :utf8 ];

# or else when opening a new handle
open(my $new_handle, "< :encoding(utf8)", "/path/to/file")
    || die "can't open /path/to/file: $!";

# if handle already opened, then just
binmode($already_opened_handle, ":encoding(utf8)")
     || die "can't binmode: $!";

从技术上讲,您应该在自己的源文件中使用use utf8;以外的:encoding(utf8),这样就不会被欺骗了。别问我为什么☹。
如果您正在使用像CGI.pmXML::Simple这样的模块,则它应该可以正常工作,但这取决于具体情况。
货币符号字符的属性如下:
% uniprops -vag € 'POUND SIGN'
U+20AC ‹€› \N{ EURO SIGN }:
    \p{\pS} \p{\p{Sc}}
    \p{All} \p{Any} \p{Assigned} \p{InCurrencySymbols} \p{Common} \p{Zyyy} \p{Currency_Symbol} \p{Sc} \p{S} \p{Gr_Base} \p{Grapheme_Base} \p{Graph}
       \p{GrBase} \p{Print} \p{Symbol}
    \p{Age:2.1} \p{Bidi_Class:ET} \p{Bidi_Class=European_Terminator} \p{Bidi_Class:European_Terminator} \p{Bc=ET} \p{Block:Currency_Symbols}
       \p{Canonical_Combining_Class:0} \p{Canonical_Combining_Class=Not_Reordered} \p{Canonical_Combining_Class:Not_Reordered} \p{Ccc=NR}
       \p{Canonical_Combining_Class:NR} \p{Script=Common} \p{General_Category=Currency_Symbol} \p{Decomposition_Type:None} \p{Dt=None} \p{East_Asian_Width:A}
       \p{East_Asian_Width=Ambiguous} \p{East_Asian_Width:Ambiguous} \p{Ea=A} \p{General_Category:Currency_Symbol} \p{Gc=Sc} \p{General_Category:S}
       \p{General_Category=Symbol} \p{General_Category:Sc} \p{General_Category:Symbol} \p{Gc=S} \p{Grapheme_Cluster_Break:Other} \p{GCB=XX}
       \p{Grapheme_Cluster_Break:XX} \p{Grapheme_Cluster_Break=Other} \p{Hangul_Syllable_Type:NA} \p{Hangul_Syllable_Type=Not_Applicable}
       \p{Hangul_Syllable_Type:Not_Applicable} \p{Hst=NA} \p{Joining_Group:No_Joining_Group} \p{Jg=NoJoiningGroup} \p{Joining_Type:Non_Joining} \p{Jt=U}
       \p{Joining_Type:U} \p{Joining_Type=Non_Joining} \p{Line_Break:PR} \p{Line_Break=Prefix_Numeric} \p{Line_Break:Prefix_Numeric} \p{Lb=PR}
       \p{Numeric_Type:None} \p{Nt=None} \p{Numeric_Value:NaN} \p{Nv=NaN} \p{Present_In:2.1} \p{In=2.1} \p{Present_In:3.0} \p{In=3.0} \p{Present_In:3.1}
       \p{In=3.1} \p{Present_In:3.2} \p{In=3.2} \p{Present_In:4.0} \p{In=4.0} \p{Present_In:4.1} \p{In=4.1} \p{Present_In:5.0} \p{In=5.0} \p{Present_In:5.1}
       \p{In=5.1} \p{Present_In:5.2} \p{In=5.2} \p{Script:Common} \p{Sc=Zyyy} \p{Script:Zyyy} \p{Sentence_Break:Other} \p{SB=XX} \p{Sentence_Break:XX}
       \p{Sentence_Break=Other} \p{Word_Break:Other} \p{WB=XX} \p{Word_Break:XX} \p{Word_Break=Other}
U+00A3 ‹£› \N{ POUND SIGN }:
    \p{\pS} \p{\p{Sc}}
    \p{All} \p{Any} \p{Assigned} \p{InLatin1} \p{Common} \p{Zyyy} \p{Currency_Symbol} \p{Sc} \p{S} \p{Gr_Base} \p{Grapheme_Base} \p{Graph} \p{GrBase}
       \p{Pat_Syn} \p{Pattern_Syntax} \p{PatSyn} \p{Print} \p{Symbol}
    \p{Age:1.1} \p{Bidi_Class:ET} \p{Bidi_Class=European_Terminator} \p{Bidi_Class:European_Terminator} \p{Bc=ET} \p{Block:Latin_1}
       \p{Block=Latin_1_Supplement} \p{Block:Latin_1_Supplement} \p{Blk=Latin1} \p{Canonical_Combining_Class:0} \p{Canonical_Combining_Class=Not_Reordered}
       \p{Canonical_Combining_Class:Not_Reordered} \p{Ccc=NR} \p{Canonical_Combining_Class:NR} \p{Script=Common} \p{General_Category=Currency_Symbol}
       \p{Decomposition_Type:None} \p{Dt=None} \p{East_Asian_Width:Na} \p{East_Asian_Width=Narrow} \p{East_Asian_Width:Narrow} \p{Ea=Na}
       \p{General_Category:Currency_Symbol} \p{Gc=Sc} \p{General_Category:S} \p{General_Category=Symbol} \p{General_Category:Sc} \p{General_Category:Symbol}
       \p{Gc=S} \p{Grapheme_Cluster_Break:Other} \p{GCB=XX} \p{Grapheme_Cluster_Break:XX} \p{Grapheme_Cluster_Break=Other} \p{Hangul_Syllable_Type:NA}
       \p{Hangul_Syllable_Type=Not_Applicable} \p{Hangul_Syllable_Type:Not_Applicable} \p{Hst=NA} \p{Joining_Group:No_Joining_Group} \p{Jg=NoJoiningGroup}
       \p{Joining_Type:Non_Joining} \p{Jt=U} \p{Joining_Type:U} \p{Joining_Type=Non_Joining} \p{Line_Break:PR} \p{Line_Break=Prefix_Numeric}
       \p{Line_Break:Prefix_Numeric} \p{Lb=PR} \p{Numeric_Type:None} \p{Nt=None} \p{Numeric_Value:NaN} \p{Nv=NaN} \p{Present_In:1.1} \p{Age=1.1} \p{In=1.1}
       \p{Present_In:2.0} \p{In=2.0} \p{Present_In:2.1} \p{In=2.1} \p{Present_In:3.0} \p{In=3.0} \p{Present_In:3.1} \p{In=3.1} \p{Present_In:3.2} \p{In=3.2}
       \p{Present_In:4.0} \p{In=4.0} \p{Present_In:4.1} \p{In=4.1} \p{Present_In:5.0} \p{In=5.0} \p{Present_In:5.1} \p{In=5.1} \p{Present_In:5.2} \p{In=5.2}
       \p{Script:Common} \p{Sc=Zyyy} \p{Script:Zyyy} \p{Sentence_Break:Other} \p{SB=XX} \p{Sentence_Break:XX} \p{Sentence_Break=Other} \p{Word_Break:Other}
       \p{WB=XX} \p{Word_Break:XX} \p{Word_Break=Other}

查找所有 \p{Sc} 字符

以下是所有46个Unicode字符,具有Sc(也称为Currency_Symbol)属性,截至 Unicode 5.2 版本:(对于格式问题,我很抱歉;我相信这是由于方向性引起的

 % unichars -a '\p{Sc}' | wc -l
       46

 % unichars -a '\p{Sc}'
 $      36 000024 DOLLAR SIGN
 ¢     162 0000A2 CENT SIGN
 £     163 0000A3 POUND SIGN
 ¤     164 0000A4 CURRENCY SIGN
 ¥     165 0000A5 YEN SIGN
 ؋    1547 00060B AFGHANI SIGN
 ৲    2546 0009F2 BENGALI RUPEE MARK
 ৳    2547 0009F3 BENGALI RUPEE SIGN
 ৻    2555 0009FB BENGALI GANDA MARK
 ૱    2801 000AF1 GUJARATI RUPEE SIGN
 ௹    3065 000BF9 TAMIL RUPEE SIGN
 ฿    3647 000E3F THAI CURRENCY SYMBOL BAHT
 ៛    6107 0017DB KHMER CURRENCY SYMBOL RIEL
 ₠    8352 0020A0 EURO-CURRENCY SIGN
 ₡    8353 0020A1 COLON SIGN
 ₢    8354 0020A2 CRUZEIRO SIGN
 ₣    8355 0020A3 FRENCH FRANC SIGN
 ₤    8356 0020A4 LIRA SIGN
 ₥    8357 0020A5 MILL SIGN
 ₦    8358 0020A6 NAIRA SIGN
 ₧    8359 0020A7 PESETA SIGN
 ₨    8360 0020A8 RUPEE SIGN
 ₩    8361 0020A9 WON SIGN
 ₪    8362 0020AA NEW SHEQEL SIGN
 ₫    8363 0020AB DONG SIGN
 €    8364 0020AC EURO SIGN
 ₭    8365 0020AD KIP SIGN
 ₮    8366 0020AE TUGRIK SIGN
 ₯    8367 0020AF DRACHMA SIGN
 ₰    8368 0020B0 GERMAN PENNY SIGN
 ₱    8369 0020B1 PESO SIGN
 ₲    8370 0020B2 GUARANI SIGN
 ₳    8371 0020B3 AUSTRAL SIGN
 ₴    8372 0020B4 HRYVNIA SIGN
 ₵    8373 0020B5 CEDI SIGN
 ₶    8374 0020B6 LIVRE TOURNOIS SIGN
 ₷    8375 0020B7 SPESMILO SIGN
 ₸    8376 0020B8 TENGE SIGN
 ꠸   43064 00A838 NORTH INDIC RUPEE MARK
 ﷼   65020 00FDFC RIAL SIGN
 ﹩   65129 00FE69 SMALL DOLLAR SIGN
 $   65284 00FF04 FULLWIDTH DOLLAR SIGN
 ¢   65504 00FFE0 FULLWIDTH CENT SIGN
 £   65505 00FFE1 FULLWIDTH POUND SIGN
 ¥   65509 00FFE5 FULLWIDTH YEN SIGN
 ₩   65510 00FFE6 FULLWIDTH WON SIGN

这里是BMP中尚未包含在Unicode 4.1中的字符集;请注意,您可以结合属性和否定来获取Unicode字符集。

% unichars --bmp '\p{Sc}' '\P{In:4.1}'
 ৻  2555 09FB BENGALI GANDA MARK
 ₶  8374 20B6 LIVRE TOURNOIS SIGN
 ₷  8375 20B7 SPESMILO SIGN
 ₸  8376 20B8 TENGE SIGN
 ꠸ 43064 A838 NORTH INDIC RUPEE MARK

如果您的系统上没有unicharsuniprops,请给我发邮件,我会把它们发送给您。它们是纯Perl编写的小型实用程序,不需要额外的模块。

很遗憾,这有点超出了我的理解范围。您介意再详细解释一下我该如何使用它吗? - Drake
我不确定为什么这是唯一正确的方法,实际上扫描货币符号有什么问题吗? - user181548
Kinopiko:你说得对,但这取决于他的问题域有多么受限。如果只有三种情况,那还好,但如果他无法预测会出现什么,那就是个问题。我认为他有一个源编码问题。如果他使用charnames,那么这个问题就可以解决了。我应该把它加入到我的答案中。 - tchrist
有没有可能提供下载 unicharsuniprops 的链接?我在我的Perl中和网络上都找不到它们... - dawg
@drewk:如果需要,您可以从training.perl.com获取 unicharsunipropsuninames 。如果对它们有任何反馈,请给我发邮件。使用wget,或者如果您使用浏览器,请确保将它们保存为UTF-8编码。如果您在它们上面使用pod2man,请确保传递--utf8标志,因为文档当然也是UTF-8格式的。没有Makefile,但您不应该需要一个。如有必要,请修复#!行。 - tchrist

2
将这段代码放在你的代码最上方:
use utf8;

文档中所描述,这表明代码包含UTF8编码的字符串。

不仅仅是字符串,标识符也很重要!例如,这是我昨天写的程序中的一行代码:my $ʇndʇno = uʍopəpᴉƨdn($input);。很酷,对吧?☺ 是的,我使用该程序来引导自身。如果您想要,可以在此处获取它:http://rt.perl.org/rt3//Public/Bug/Display.html?id=79214。 - tchrist
这适用于英镑,但不幸的是不适用于欧元,这很遗憾,因为我更喜欢这个非常简单的解决方案! - Drake
@Sam,另外,你的数据源编码怎么样?如果你使用属性,你可以拥有一个仅限ASCII的Perl程序;你只需要正确设置输入源的编码即可。 - tchrist
您还需要确保使用Perl进行比较的输入字符串被标记为UTF-8。 - user181548

1

0

正如@Kinopiko在评论中提到的那样,您的代码风格需要改进。将其通过PerlTidy运行以显示缩进:

if ( $curr eq "\$" ) {
    print CURRENCY "Currency: Dollars($curr)\n";
}
else {
    if ( $curr eq "£" ) {
        print CURRENCY "Currency: Pounds($curr)\n";
    }
    else {
        if ( $curr eq "€" ) {
            print CURRENCY "Currency: Euros($curr)\n";
        }

这个代码显示出了一些缺失的结束括号(}字符),这将导致语法错误。在最少的情况下,代码需要两个括号来关闭 if 语句。

use warnings;
use strict;

if ( $curr eq "\$" ) {
    print CURRENCY "Currency: Dollars($curr)\n";
}
else {
    if ( $curr eq "£" ) {
        print CURRENCY "Currency: Pounds($curr)\n";
    }
    else {
        if ( $curr eq "€" ) {
            print CURRENCY "Currency: Euros($curr)\n";
        }
    }
}

通常情况下,我们会这样写:
use warnings;
use strict;

if ( $curr eq "\$" ) {
    print CURRENCY "Currency: Dollars($curr)\n";
}
elsif ( $curr eq "£" ) {
    print CURRENCY "Currency: Pounds($curr)\n";
}
elsif ( $curr eq "€" ) {
    print CURRENCY "Currency: Euros($curr)\n";
} else {
    print "Unexpected currency symbol \"$curr\" found."
    exit;
}

虽然我倾向于这样构建它:

use warnings;
use strict;

if    ( $curr eq "\$" ) { print CURRENCY "Currency: Dollars($curr)\n"; }
elsif ( $curr eq "£" )  { print CURRENCY "Currency: Pounds($curr)\n";  }
elsif ( $curr eq "€" )  { print CURRENCY "Currency: Euros($curr)\n";   } 
else {
    print "Unexpected currency symbol \"$curr\" found."
    exit;
}

请注意,在一系列的if/elsif语句的末尾,我添加了一个终止的else语句,以捕获潜在的逻辑漏洞,如果没有先前的$curr匹配符号。这是一个简单的方法来捕捉遗漏的测试,但如果您的代码逻辑处理情况,则不是绝对必要的。
如果您还没有它们,请将以下两行添加到您的代码顶部:
use warnings;
use strict;

告诉Perl对错误和可能的错误保持严格。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接