带特殊字符的 Perl 字符串按字母顺序排序

3

我有这段代码:

 use strict; 
 use warnings; 
 my %hash = ( 5328 => 'Adorable', 
              26191 => '"Giraffe"', 
              57491 => 'Is Very', 
               4915 => 'Cute',);
 foreach (sort { ($hash{$a} cmp $hash{$b}) || ($a cmp $b) } keys %hash) 
 { print "$hash{$_}\n"; }

这将产生以下结果:
"Giraffe"

Adorable

Cute

Is Very

我需要按字母顺序排列,并忽略AlphaNumeric字符前的特殊字符,例如此示例:
Adorable

Cute

"Giraffe"

Is Very

有什么建议吗?

1
构建一个哈希表,使用未加引号的字符串作为键,并对键进行排序。您还可以在比较中修剪每个值。 - Casimir et Hippolyte
如果键是数字,你可能想要在第二级排序中使用 <=> 而不是 cmp - Matt Jacob
你的数据集有误。在它们接近哈希表之前,你需要删除引号。也许你正在处理 CSV 数据? - Borodin
请澄清一下:你的数据中每隔一行都是空白的吗? - Borodin
你的哈希表 %hash 的数据来源是什么(请不要把变量命名为 @array%hash$scalar)。这个命名需要重写。 - Borodin
这只是一个示例数据,最终结果不一定需要在中间有空格,我只是为了更清晰地展示它。 - Xavia
4个回答

7
你可以简单地这样做(请注意,我将第二个cmp更改为用于数字值的Shuttle运算符<=>):
foreach (sort { ($hash{$a}=~s/^\W+//r cmp $hash{$b}=~s/^\W+//r) || ($a <=> $b) } keys %hash) {
    print "$hash{$_}\n";
}

但是,如果你有大量数据,最好将你的数据进行转换 (一劳永逸) : 例如使用 schwartzian 转换:

my @result = map { $_->[2] }
             sort { ($a->[0] cmp $b->[0]) || ($a->[1] <=> $b->[1]) }
             map { [ $hash{$_}=~s/^"|"$//gr, $_, $hash{$_}] } keys %hash; 

print join "\n", @result;

4
需要Perl版本大于等于5.14才能使用“/r”,建议您在文中提及。 - Matt Jacob

5
创建一个函数来截断特殊字符(在我的情况下是truncate_special_chars)。然后,在您的sort例程下使用它。
use strict;
use warnings;

my %hash = (
    5328 => 'Adorable',
    26191 => '"Giraffe"',
    57491 => 'Is Very',
    4915 => 'Cute',
    );


print join "\n", 
    map { $hash{$_ -> [0]} }
    sort { $a -> [1] cmp $b -> [1] || $a -> [0] <=> $b -> [0] }
    map { [ $_, truncate_special_chars($hash{$_}) ] }
    keys %hash;

sub truncate_special_chars {
    my $str = shift;
    $str =~ s/^\W//;
    # may be use lc if you want case insensitive sort
    return $str;
}

否则,如果您正在使用Perl >= 5.14,则可以使用/r。

你忽略了 $hash{$a} == $hash{$b} 的情况,必须按键排序。 - Toto
@Toto 编辑过了。我猜如果我携带键而不是值,那就很简单了 :). - Arunesh Singh
我认为你应该对哈希键进行数字比较:sort { $a -> [1] cmp $b -> [1] || $a -> [0] <=> $b -> [0] } - jreisinger
@jreisinger完成。 - Arunesh Singh

2
使用自定义排序函数,去除您想要忽略的字符。
foreach (sort {
            my ($aa,$bb) = ($hash{$a},$hash{$b});
            s/["]//g for $aa,$bb; # ignore " char. Add whatever else you want
            $aa cmp $bb           # or lc($aa) cmp lc($bb) case-insensitive search
                || $a cmp $b
       } keys %hash) { ... }

你可以使用Schwartzian变换来加快速度。一直剥离东西是很昂贵的。 - simbabque
1
是的,当输入较大且在比较之前对输入进行的转换很昂贵时,使用Schwartzian变换是值得的。 - mob

2
请尝试以下操作:
use strict; 
use warnings; 
my %hash = ( 5328 => 'Adorable', 
      26191 => '"Giraffe"', 
      57491 => 'Is Very', 
       4915 => 'Cute',);

foreach (sort{my ($one)=$hash{$a}=~m/([\w\s]+)/; my ($two)=$hash{$b}=~m/([\w\s]+)/; $one cmp $two} keys %hash) 
{ 
    print "$hash{$_}\n"; 
}

将元素分组并存储到$one$two中,然后进行比较。

但是使用@Casimir et Hippolyte的方法非常容易。他使用了非破坏性修饰符(r),但它只支持5.14版本以上。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接