免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3995 | 回复: 9
打印 上一主题 下一主题

两列数据统计重复出现次数 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-04-23 14:14 |只看该作者 |倒序浏览
-----------------data------------
A01     A
A01     C
A01     C
A01     C
A01     B
A01     A
A01     C
A02     D
A02     D
A02     B
A02     B
A02     A
A03     A
A03     D
A03     B
希望统计以第一列为范围统计第二列出现的次数,并且标注出出现最多的第二列类别。希望得到的结果是
-----------------data------------
A01     A      2      C
A01     C      4      C
A01     C      4      C
A01     C      4      C
A01     B      1      C
A01     A      2      C
A01     C      4      C
A02     D      2      B,D
A02     D      2      B,D
A02     B      2      B,D
A02     B      2      B,D
A02     A      1      B,D
A03     A      1      A,B,D
A03     D      1      A,B,D
A03     B      1      A,B,D

论坛徽章:
26
2015亚冠之胡齐斯坦钢铁
日期:2015-06-25 21:40:202015亚冠之柏斯波利斯
日期:2015-08-31 17:03:192015亚冠之柏斯波利斯
日期:2015-11-07 13:10:00程序设计版块每日发帖之星
日期:2015-11-10 06:20:00每日论坛发贴之星
日期:2015-11-10 06:20:00程序设计版块每日发帖之星
日期:2015-11-26 06:20:00程序设计版块每日发帖之星
日期:2015-12-02 06:20:00黄金圣斗士
日期:2015-12-07 17:57:4615-16赛季CBA联赛之天津
日期:2015-12-23 18:34:14程序设计版块每日发帖之星
日期:2016-01-02 06:20:00程序设计版块每日发帖之星
日期:2016-01-06 06:20:00每日论坛发贴之星
日期:2016-01-06 06:20:00
2 [报告]
发表于 2015-04-23 16:00 |只看该作者

简单场景直接利用字典就够了。

求职 : 软件工程师
论坛徽章:
3
程序设计版块每日发帖之星
日期:2015-10-07 06:20:00程序设计版块每日发帖之星
日期:2015-12-13 06:20:00程序设计版块每日发帖之星
日期:2016-05-05 06:20:00
3 [报告]
发表于 2015-04-23 20:30 |只看该作者
用易表,foxtable 处理此类问题最合适了
candies_bio 该用户已被删除
4 [报告]
发表于 2015-04-23 23:58 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
candies_bio 该用户已被删除
5 [报告]
发表于 2015-04-24 00:05 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
7
戌狗
日期:2013-12-15 20:43:38技术图书徽章
日期:2014-03-05 01:33:12技术图书徽章
日期:2014-03-15 20:31:17未羊
日期:2014-03-25 23:48:20丑牛
日期:2014-04-07 22:37:44巳蛇
日期:2014-04-11 21:58:0915-16赛季CBA联赛之青岛
日期:2016-03-17 20:36:13
6 [报告]
发表于 2015-04-24 03:44 |只看该作者
foxtable ~
  1. #!/usr/bin/perl

  2. my @foxtable;
  3. my $V = '\(^oo^)/';

  4. while (<DATA>) {
  5.     my ( $A, $B ) = split;
  6.     $V ne $A
  7.       ? push @foxtable, [ {}, $V = $A, $B ]
  8.       : push @{ $foxtable[-1] }, $B;
  9.     $foxtable[-1][0]{$B}++;
  10. }

  11. for (@foxtable) {
  12.     my ( $fox, $tab, @le ) = @$_;
  13.     my ($it) = sort { $b <=> $a } values %$fox;
  14.     my $that = join ',', sort grep $fox->{$_} == $it, keys %$fox;
  15.     print map join( "\t", $tab, $_, $fox->{$_}, $that ) . $/, @le;
  16. }

  17. __DATA__
  18. A01     A
  19. A01     C
  20. A01     C
  21. A01     C
  22. A01     B
  23. A01     A
  24. A01     C
  25. A02     D
  26. A02     D
  27. A02     B
  28. A02     B
  29. A02     A
  30. A03     A
  31. A03     D
  32. A03     B
复制代码

论坛徽章:
1
羊年新春福章
日期:2015-04-28 20:40:58
7 [报告]
发表于 2015-04-28 20:38 |只看该作者

RE: 两列数据统计重复出现次数

本帖最后由 清泉一边 于 2015-04-28 20:43 编辑


为什么找不到写代码的<>了呢
   

论坛徽章:
1
羊年新春福章
日期:2015-04-28 20:40:58
8 [报告]
发表于 2015-04-28 20:42 |只看该作者
我觉得大神的这种写法首先要确定按第一列排序,斗胆给大神的代码加了一步排序
  1. #!/usr/bin/perl
  2. my @sort = map {$_->[0]}
  3.             sort {$a->[1] cmp $b->[1]}
  4.             map {[$_,split]}<DATA>;
  5. my @foxtable;
  6. my $V = 0;
  7. for my $sort (@sort) {
  8.     my ( $A, $B ) = split /\s+/,$sort;
  9.     if($V ne $A){
  10.     $V = $A;
  11.     push @foxtable, [ {}, $V, $B ];
  12.     }
  13.     else{
  14.       push @{ $foxtable[-1] }, $B;
  15. #      $foxtable[-1][0]{$B}++;
  16.     }
  17.     $foxtable[-1][0]{$B}++;
  18. }
  19. for (@foxtable) {
  20.     my ( $fox, $tab, @le ) = @$_;
  21.     my ($it) = sort { $b <=> $a } values %$fox;
  22.     my $that = join ',', sort grep $fox->{$_} == $it, keys %$fox;
  23.     print map join( "\t", $tab, $_, $fox->{$_}, $that ) . $/ ,sort @le;
  24. }

  25. __DATA__
  26. A01     A
  27. A01     C
  28. A01     C
  29. A01     C
  30. A01     B
  31. A01     A
  32. A01     C
  33. A02     D
  34. A02     D
  35. A02     B
  36. A02     B
  37. A02     A
  38. A03     A
  39. A03     D
  40. A03     B
复制代码
回复 6# rubyish


   

论坛徽章:
7
戌狗
日期:2013-12-15 20:43:38技术图书徽章
日期:2014-03-05 01:33:12技术图书徽章
日期:2014-03-15 20:31:17未羊
日期:2014-03-25 23:48:20丑牛
日期:2014-04-07 22:37:44巳蛇
日期:2014-04-11 21:58:0915-16赛季CBA联赛之青岛
日期:2016-03-17 20:36:13
9 [报告]
发表于 2015-04-29 22:25 |只看该作者
本帖最后由 rubyish 于 2015-04-29 18:31 编辑

回复 8# 清泉一边

3Q~     

wo muce tade diyi lie shi youxude, suoyi...
ru yao gai?
wo xiang zhe keneng hui bijiao hao?
dan zhe yu yuqide jieguo bufu.
  1. my @sort = map { $_->[0] }
  2.   sort { $a->[1] cmp $b->[1] }
  3.   map { [ $_, split ] } <DATA>;
  4.   ...
  5. for my $sort (@sort) {
  6.     my ( $A, $B ) = split /\s+/, $sort;
复制代码

  1. my @sort =
  2.   # map { $_->[0] }
  3.   sort { $a->[0] cmp $b->[0] }
  4.   map { [ split ] } <DATA>;
  5.   # map { [ $_, split ] } <DATA>;
  6.   # [ "A01     A", "A01", "A" ], $_ shi duoyude

  7. for my $sort (@sort) {
  8.     # my ( $A, $B ) = split /\s+/, $sort;
  9.     # BAD: 1 hang split 2 ci
  10.     my ( $A, $B ) = @$sort;
复制代码
zhe shi lingyige xiefa(wuxude):
yiyang shiyong foxtable ~
  1. #!/usr/bin/perl
  2. my %foxtable;

  3. while (<DATA>) {
  4.     my ( $A, $B ) = split;
  5.     $foxtable{$A}{$B}++;
  6. }

  7. for my $k ( sort keys %foxtable ) {
  8.     my %F   = %{ $foxtable{$k} };
  9.     my ($V) = sort { $b <=> $a } values %F;
  10.     my $T   = join ',', sort grep $F{$_} == $V, keys %F;
  11.     print map { "$k\t$_\t$F{$_}\t$T\n" x $F{$_} } sort keys %F;
  12. }

  13. __DATA__
  14. A01     A
  15. A01     C
  16. A01     C
  17. A02     A
  18. A03     A
  19. A03     D
  20. A01     C
  21. A01     B
  22. A01     A
  23. A01     C
  24. A02     D
  25. A02     D
  26. A02     B
  27. A02     B
  28. A03     B
复制代码

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
10 [报告]
发表于 2016-09-21 22:39 |只看该作者
  1. #!/usr/bin/perl
  2. use strict;
  3. use warnings;

  4. my ($id, @aData, %hCnt) = "";
  5. map {my ($k, $v) = split; $id ne $k ? push (@aData, [$k, [$v]]) : push (@{$aData[-1][-1]}, $v); $id = $k} <DATA>;
  6. foreach my $ra (@aData){
  7.     $hCnt{$_}++ for @{$ra->[-1]};
  8.     my @aT = map {[$_, $hCnt{$_}]} sort {$hCnt{$b} <=> $hCnt{$a}} keys %hCnt;
  9.     my @aChars = $aT[0][0];
  10.     foreach (1 .. $#aT){
  11.         push (@aChars, $aT[$_][0]) if ($aT[0][-1] == $aT[$_][-1]);
  12.     }
  13.     print join ("\t", $ra->[0], $_, $hCnt{$_}, join (",", sort @aChars)), "\n" for @{$ra->[-1]};
  14.     %hCnt = ();
  15. }

  16. __DATA__
  17. A01     A
  18. A01     C
  19. A01     C
  20. A01     C
  21. A01     B
  22. A01     A
  23. A01     C
  24. A02     D
  25. A02     D
  26. A02     B
  27. A02     B
  28. A02     A
  29. A03     A
  30. A03     D
  31. A03     B
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP