带特殊字符的 Perl 字符串按字母顺序排序

Question

带特殊字符的 Perl 字符串按字母顺序排序

3

我有这段代码：

 use strict; 
 use warnings; 
 my %hash = ( 5328 => 'Adorable', 
              26191 => '"Giraffe"', 
              57491 => 'Is Very', 
               4915 => 'Cute',);
 foreach (sort { ($hash{$a} cmp $hash{$b}) || ($a cmp $b) } keys %hash) 
 { print "$hash{$_}\n"; }

这将产生以下结果：

"Giraffe"

Adorable

Cute

Is Very

我需要按字母顺序排列，并忽略AlphaNumeric字符前的特殊字符，例如此示例：

Adorable

Cute

"Giraffe"

Is Very

有什么建议吗？

- Xavia

1

构建一个哈希表，使用未加引号的字符串作为键，并对键进行排序。您还可以在比较中修剪每个值。 - Casimir et Hippolyte

如果键是数字，你可能想要在第二级排序中使用 <=> 而不是 cmp。 - Matt Jacob

你的数据集有误。在它们接近哈希表之前，你需要删除引号。也许你正在处理 CSV 数据？ - Borodin

请澄清一下：你的数据中每隔一行都是空白的吗？ - Borodin

你的哈希表 %hash 的数据来源是什么（请不要把变量命名为 @array、%hash 或 $scalar）。这个命名需要重写。 - Borodin

这只是一个示例数据，最终结果不一定需要在中间有空格，我只是为了更清晰地展示它。 - Xavia

4个回答

5

创建一个函数来截断特殊字符（在我的情况下是truncate_special_chars）。然后，在您的sort例程下使用它。

use strict;
use warnings;

my %hash = (
    5328 => 'Adorable',
    26191 => '"Giraffe"',
    57491 => 'Is Very',
    4915 => 'Cute',
    );


print join "\n", 
    map { $hash{$_ -> [0]} }
    sort { $a -> [1] cmp $b -> [1] || $a -> [0] <=> $b -> [0] }
    map { [ $_, truncate_special_chars($hash{$_}) ] }
    keys %hash;

sub truncate_special_chars {
    my $str = shift;
    $str =~ s/^\W//;
    # may be use lc if you want case insensitive sort
    return $str;
}

否则，如果您正在使用Perl >= 5.14，则可以使用/r。

- Arunesh Singh

你忽略了 $hash{$a} == $hash{$b} 的情况，必须按键排序。 - Toto

@Toto 编辑过了。我猜如果我携带键而不是值，那就很简单了 :). - Arunesh Singh

我认为你应该对哈希键进行数字比较：sort { $a -> [1] cmp $b -> [1] || $a -> [0] <=> $b -> [0] }。 - jreisinger

@jreisinger完成。 - Arunesh Singh

2

使用自定义排序函数，去除您想要忽略的字符。

foreach (sort {
            my ($aa,$bb) = ($hash{$a},$hash{$b});
            s/["]//g for $aa,$bb; # ignore " char. Add whatever else you want
            $aa cmp $bb           # or lc($aa) cmp lc($bb) case-insensitive search
                || $a cmp $b
       } keys %hash) { ... }

- mob

你可以使用Schwartzian变换来加快速度。一直剥离东西是很昂贵的。 - simbabque

1

是的，当输入较大且在比较之前对输入进行的转换很昂贵时，使用Schwartzian变换是值得的。 - mob

2

请尝试以下操作：

use strict; 
use warnings; 
my %hash = ( 5328 => 'Adorable', 
      26191 => '"Giraffe"', 
      57491 => 'Is Very', 
       4915 => 'Cute',);

foreach (sort{my ($one)=$hash{$a}=~m/([\w\s]+)/; my ($two)=$hash{$b}=~m/([\w\s]+)/; $one cmp $two} keys %hash) 
{ 
    print "$hash{$_}\n"; 
}

将元素分组并存储到$one和$two中，然后进行比较。

但是使用@Casimir et Hippolyte的方法非常容易。他使用了非破坏性修饰符(r)，但它只支持5.14版本以上。

- mkHun

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Casimir et Hippolyte · Accepted Answer

你可以简单地这样做（请注意，我将第二个cmp更改为用于数字值的Shuttle运算符<=>）:

foreach (sort { ($hash{$a}=~s/^\W+//r cmp $hash{$b}=~s/^\W+//r) || ($a <=> $b) } keys %hash) {
    print "$hash{$_}\n";
}

但是，如果你有大量数据，最好将你的数据进行转换 （一劳永逸） ：例如使用 schwartzian 转换：

my @result = map { $_->[2] }
             sort { ($a->[0] cmp $b->[0]) || ($a->[1] <=> $b->[1]) }
             map { [ $hash{$_}=~s/^"|"$//gr, $_, $hash{$_}] } keys %hash; 

print join "\n", @result;