按重复次数排序

4

我有一个像这样的文件:

192.168.2.2 150.25.45.7 8080
192.168.12.25 178.25.45.7 50
192.168.2.2 142.55.45.18 369
192.168.489.2 122.25.35.7 8080
192.168.489.2 90.254.45.7 80
192.168.2.2 142.55.45.18 457

我编造了所有的数字。

我需要根据第一个ip地址重复的次数对所有这些文件进行排序。因此,理想情况下输出应该是这样的:

192.168.2.2 8080 369 457 3
192.168.489.2 8080 80 2
192.168.12.25 50 1

首先是IP地址,其次是与该IP地址相关的所有端口以及重复出现的次数。

我一直在尝试使用sort命令和awk,但我不想做额外的工作,也许会错过其他直接的解决方案。

有任何想法吗?谢谢 :)


它被称为频率或直方图。 - sehe
我在那里添加了一行。我只是想知道是否错过了一些简单的解决方案。 - coconut
6个回答

7
一个 Perl 风格的答案可能看起来像这样。
#!/usr/bin/perl

use strict;
use warnings;
use 5.010;

my %data;

# Store IP address and port number
while (<DATA>) {
  chomp;
  my ($ip, undef, $port) = split;
  push @{$data{$ip}}, $port;
}

# Sort (in reverse) by length of list of ports
for (sort { @{$data{$b}} <=> @{$data{$a}} } keys %data) {
  say "$_ @{$data{$_}} ", scalar @{$data{$_}};
}

__DATA__
192.168.2.2 150.25.45.7 8080
192.168.12.25 178.25.45.7 50
192.168.2.2 142.55.45.18 369
192.168.489.2 122.25.35.7 8080
192.168.489.2 90.254.45.7 80
192.168.2.2 142.55.45.18 457

输出:

192.168.2.2 8080 369 457 3
192.168.489.2 8080 80 2
192.168.12.25 50 1

运行得非常好!你能解释一下 <=> 部分是做什么的吗?我很好奇。谢谢! - coconut
阅读 sort 的文档(http://perldoc.perl.org/functions/sort.html)以及 perlop 中关于相等运算符的部分(http://perldoc.perl.org/perlop.html#Equality-Operators)。 - Dave Cross

2

一个Perl的方法:

#!/usr/bin/perl
use strict;
use warnings;

my %repeat;
while(<DATA>) {
    if (/^(\d+(?:.\d+){3})\s\S+\s(\d+)$/) {
        push @{$repeat{$1}}, $2;
    }
}
foreach (sort {@{$repeat{$b}}<=>@{$repeat{$a}}} keys %repeat) {
    my $num = @{$repeat{$_}};
    print "$_ @{$repeat{$_}} $num\n";
}

__DATA__
192.168.2.2 150.25.45.7 8080
192.168.12.25 178.25.45.7 50
192.168.2.2 142.55.45.18 369
192.168.489.2 122.25.35.7 8080
192.168.489.2 90.254.45.7 80
192.168.2.2 142.55.45.18 457

输出:

192.168.2.2 8080 369 457 3
192.168.489.2 8080 80 2
192.168.12.25 50 1

我认为您错过了按每个源IP地址出现次数排序输出的要求。 - Dave Cross
1
@davorg:是的,我做了。已更新答案。 - Toto

1

另一种 Perl 解决方案:

#!/usr/bin/perl

use strict;
use warnings;

my %ips;
push @{$ips{$_->[0]}}, $_->[1]+0 for map{[split/ \S+ /]}<DATA>;

for (sort {@{$ips{$b}} <=> @{$ips{$a}}} keys %ips) {
    printf("%s %s %d\n", $_, join(" ", @{$ips{$_}}), 0+@{$ips{$_}});
}

__DATA__
192.168.2.2 150.25.45.7 8080
192.168.12.25 178.25.45.7 50
192.168.2.2 142.55.45.18 369
192.168.489.2 122.25.35.7 8080
192.168.489.2 90.254.45.7 80
192.168.2.2 142.55.45.18 457

输出:

192.168.2.2 8080 369 457 3
192.168.489.2 8080 80 2
192.168.12.25 50 1

0
这是一个主要依赖于awk和sort的管道:
sort -k1 -k3n \
| awk -F' ' '
    NR==1 { 
      printf("%s ", $1); 
      current = $1 
    } 
    $1 != current { 
      printf(":%d\n%s ", count, $1); 
      current = $1; 
      count = 0 
    } 
    { printf("%d ", $3); count++ } 
    END { printf(":%d\n", count) }' \
| sort -t':' -k2nr \
| tr -d':'

0

这一行代码应该能够为您完成工作:

awk '{a[$1]++;b[$1]=b[$1]" "$3}END{for(x in a)print a[x]"\t"x,b[x],a[x]}' input |
sort -nr|cut -f2-

用你的例子进行测试

kent$  cat tt
192.168.2.2 150.25.45.7 8080
192.168.12.25 178.25.45.7 50
192.168.2.2 142.55.45.18 369
192.168.489.2 122.25.35.7 8080
192.168.489.2 90.254.45.7 80
192.168.2.2 142.55.45.18 457

kent$  awk '{a[$1]++;b[$1]=b[$1]" "$3}END{for(x in a)print a[x]"\t"x,b[x],a[x]}' tt |
sort -nr|cut -f2-
192.168.2.2  8080 369 457 3
192.168.489.2  8080 80 2
192.168.12.25  50 1

0

GNU awk 4:

awk 'END {
  PROCINFO["sorted_in"] = "@val_num_desc"
  for (e in ic)
    print e, ip[e], ic[e] 
  }
{
  ip[$1] = $1 in ip ? ip[$1] OFS $NF : $NF
  ic[$1]++
  }' infile

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接