免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 9332 | 回复: 17
打印 上一主题 下一主题

文本处理,取最大值和最小值 [复制链接]

论坛徽章:
8
双子座
日期:2013-08-31 07:37:12金牛座
日期:2013-09-09 18:49:12处女座
日期:2013-09-23 11:43:14处女座
日期:2013-10-09 19:48:21狮子座
日期:2014-03-24 18:22:12丑牛
日期:2014-04-22 22:07:51申猴
日期:2014-06-12 21:54:13双鱼座
日期:2014-06-13 21:52:31
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-09-30 21:55 |只看该作者 |倒序浏览
shell一题,
有一个文件里面内容如下:

111        16644211        348795021
111        16644211        348795368
111        16644211        348797001
111        16644211        348797826
111        22443489        348795333
111        67384560        348795445
111        67384560        348795879
现需要根据第一二列,统计它们出现的次数,
以及对应第三列的最小值和最大值,如果只有
一次,则第3列为最小值
统计结果如下:

111        16644211    4   348795021   348797826
111        22443489    1   348795333
111        67384560    2   348795445   348795879

去重和计数都写好的,就卡在取最大和最小值没有思路,请大家帮忙
下面是我的脚本
  1. #!/usr/bin/perl -w

  2. use 5.010;
  3. use strict;
  4. use List::Util qw(max min);

  5. my %h;
  6. my @arr;
  7. my $str;
  8. my $str1;
  9. my $str2;

  10. while (<DATA>) {
  11.     ($str,$str1,$str2) = split;
  12.     $h{$str."\t".$str1}++;

  13. }

  14. for my $k (keys %h) {
  15.     say "$k\t$h{$k}"
  16. }

  17. __DATA__
  18. 111        16644211        348795021
  19. 111        16644211        348795368
  20. 111        16644211        348797001
  21. 111        16644211        348797826
  22. 111        22443489        348795333
  23. 111        67384560        348795445
  24. 111        67384560        348795879
复制代码

论坛徽章:
0
2 [报告]
发表于 2013-10-01 00:23 |只看该作者
本帖最后由 ulmer 于 2013-10-01 00:26 编辑

回复 1# kernel69

Simply using reference array/hash => Hash of Array for example:

  1. use strict;
  2. # Load data
  3. my @data =<DATA>;
  4. # Create data structure Hash of Array
  5. my %HoA = ();
  6. foreach my $line (@data) {
  7.     chomp $line;
  8.     # Split columns
  9.     my ($c1, $c2, $c3) = split /\s+/, $line, 3;
  10.     # Column2 as key and column3 as array items to append   
  11.     push @{$HoA{$c2}}, $c3;
  12. }
  13. # Access the data structure
  14. foreach my $key (sort keys %HoA) {
  15.     # derefernce Array in Hash and sort it to get max and min.
  16.     my @ary = sort @{$HoA{$key}};
  17.     # show
  18.     printf ("%s counted %s times, max=%s, min=%s\n",
  19.         $key, scalar(@ary), $ary[-1], $ary[0]);
  20. }

  21. __DATA__
  22. 111        16644211        348795021
  23. 111        16644211        348795368
  24. 111        16644211        348797001
  25. 111        16644211        348797826
  26. 111        22443489        348795333
  27. 111        67384560        348795445
  28. 111        67384560        348795879
复制代码
Happy National holiday

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
3 [报告]
发表于 2013-10-01 10:40 |只看该作者
回复 1# kernel69

How about this ...

$ perl cnt_min_max.pl
111     16644211        4       348795021       348797826
111     22443489        1       348795333
111     67384560        2       348795445       348795879

$ cat cnt_min_max.pl
use strict;
use warnings;

my %h;
while(<DATA>){

  my ($sKey1,$sKey2,$sValue) = split;
  
  my $sKey = "$sKey1\t$sKey2";
  if( ++$h{$sKey}->{Cnt} == 1){    # Cnt for Count
      $h{$sKey}->{Min} = $sValue;   # Min for Minimum value
      $h{$sKey}->{Max} = $sValue;  # max for maximum value
  }
  else{
    if($h{$sKey}->{Max} < $sValue){
           $h{$sKey}->{Max} = $sValue;  
        }
    if($h{$sKey}->{Min} > $sValue){
           $h{$sKey}->{Min} = $sValue;  
        }
  }
}

my $sOut;
foreach (sort keys %h) {
  $sOut = join("\t", $_, $h{$_}->{Cnt}, $h{$_}->{Min});
  $sOut .= "\t". $h{$_}->{Max} if($h{$_}->{Cnt} != 1);
  print "$sOut\n";
}

__DATA__
111        16644211        348795021
111        16644211        348795368
111        16644211        348797001
111        16644211        348797826
111        22443489        348795333
111        67384560        348795445
111        67384560        348795879

论坛徽章:
8
双子座
日期:2013-08-31 07:37:12金牛座
日期:2013-09-09 18:49:12处女座
日期:2013-09-23 11:43:14处女座
日期:2013-10-09 19:48:21狮子座
日期:2014-03-24 18:22:12丑牛
日期:2014-04-22 22:07:51申猴
日期:2014-06-12 21:54:13双鱼座
日期:2014-06-13 21:52:31
4 [报告]
发表于 2013-10-01 10:46 |只看该作者
学习了,
  1. 哈希当数组
  2. push @{$HoA{$c2}}, $c3;
  3. 最大和最小值
  4. my @ary = sort @{$HoA{$key}};
  5. scalar(@ary), $ary[-1], $ary[0]);
复制代码
回复 2# ulmer


   

论坛徽章:
8
双子座
日期:2013-08-31 07:37:12金牛座
日期:2013-09-09 18:49:12处女座
日期:2013-09-23 11:43:14处女座
日期:2013-10-09 19:48:21狮子座
日期:2014-03-24 18:22:12丑牛
日期:2014-04-22 22:07:51申猴
日期:2014-06-12 21:54:13双鱼座
日期:2014-06-13 21:52:31
5 [报告]
发表于 2013-10-01 10:51 |只看该作者
完全符合要求
  1. $h{$sKey}->{Cnt}
复制代码
这是引用吧,还没学,呵呵,表示有点看不懂
回复 3# jason680


   

论坛徽章:
8
双子座
日期:2013-08-31 07:37:12金牛座
日期:2013-09-09 18:49:12处女座
日期:2013-09-23 11:43:14处女座
日期:2013-10-09 19:48:21狮子座
日期:2014-03-24 18:22:12丑牛
日期:2014-04-22 22:07:51申猴
日期:2014-06-12 21:54:13双鱼座
日期:2014-06-13 21:52:31
6 [报告]
发表于 2013-10-01 11:01 |只看该作者
本帖最后由 kernel69 于 2013-10-01 11:02 编辑

大牛,能不能解释一下这一段
  1. if( ++$h{$sKey}->{Cnt} == 1){    # Cnt for Count
  2.       $h{$sKey}->{Min} = $sValue;   # Min for Minimum value
  3.       $h{$sKey}->{Max} = $sValue;  # max for maximum value
  4.   }
复制代码
感觉挺core的,不明觉厉啊

回复 3# jason680


   

论坛徽章:
5
丑牛
日期:2014-01-21 08:26:26卯兔
日期:2014-03-11 06:37:43天秤座
日期:2014-03-25 08:52:52寅虎
日期:2014-04-19 11:39:48午马
日期:2014-08-06 03:56:58
7 [报告]
发表于 2013-10-01 14:53 |只看该作者
回复 6# kernel69
我和我的小伙伴们据估计,凭猜测
  1.     if( ++$h{$sKey}->{Cnt} == 1){   
  2. # 当第一次 没有 Min 没有 Max 的时候:
  3.           $h{$sKey}->{Min} = $sValue;   
  4. # $sValue 分配给 Min
  5.           $h{$sKey}->{Max} = $sValue;  
  6. # $sValue 分配给 Max
  7.       }
复制代码

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
8 [报告]
发表于 2013-10-01 15:32 |只看该作者
本帖最后由 jason680 于 2013-10-01 15:33 编辑

回复 7# pitonas


Good answer and thanks !!!   

论坛徽章:
8
双子座
日期:2013-08-31 07:37:12金牛座
日期:2013-09-09 18:49:12处女座
日期:2013-09-23 11:43:14处女座
日期:2013-10-09 19:48:21狮子座
日期:2014-03-24 18:22:12丑牛
日期:2014-04-22 22:07:51申猴
日期:2014-06-12 21:54:13双鱼座
日期:2014-06-13 21:52:31
9 [报告]
发表于 2013-10-01 16:27 |只看该作者
$h{$sKey}->{Cnt} == 1
这也是创建一个引用,是吗?
回复 7# pitonas


   

论坛徽章:
3
CU十二周年纪念徽章
日期:2013-10-24 15:41:34子鼠
日期:2013-12-14 14:57:19射手座
日期:2014-04-25 21:23:23
10 [报告]
发表于 2013-10-09 09:10 |只看该作者
  1. use strict;
  2. use warnings;
  3. my $h;
  4. map { /(\d+\s+\d+)\s+(\d+)(?{push @{$h->{$1}},$2})/ } <DATA>;
  5. map {
  6.     my ( $min, $max ) = ( sort @{ $h->{$_} } )[ 0, -1 ];
  7.     my $sc = scalar @{ $h->{$_} };
  8.     print "$_\t";
  9.     $sc == 1 ? print "1\t@{$h->{$_}}\n" : print "$sc\t$min\t$max\n"
  10. } keys $h;
  11. __DATA__
  12. 111        16644211        348795021
  13. 111        16644211        348795368
  14. 111        16644211        348797001
  15. 111        16644211        348797826
  16. 111        22443489        348795333
  17. 111        67384560        348795445
  18. 111        67384560        348795879
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP