免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2266 | 回复: 4
打印 上一主题 下一主题

抽取信息进行统计 [复制链接]

论坛徽章:
2
2015年亚洲杯之沙特阿拉伯
日期:2015-03-27 17:28:472015年亚洲杯之韩国
日期:2015-03-27 22:34:22
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-08-20 21:04 |只看该作者 |倒序浏览
假如有3个文本:A1.txt
                     A2.txt
                     A3.txt
格式一样(列以tab分隔),如下:

      A1.txt                                     A2.txt                                  A3.txt

ID    group    o                         ID    group    o                       ID    group    o
11    s k        sd                        1      aa1      222                    3      a b       dwd
12    aa1       34                        2      aa1      dd                      2      s k       222
12    a b        bb                        1      a b      111                    
13    a b        eee


提取每个文本中group列的类别信息并计数,生成文件第一列名称“group”,后几列是文本前缀,并且按名称排序“A1 A2 A3”,列之间以tab分隔:

group    A1    A2    A3

s k        1       0      1
aa1       1       2       0
a b        2       1       1



用哈希可以实现吗?

首先提取各个文本的统计信息,存成哈希,
第二步对生成文本的表头排序:sort {$a cmp $b} keys %datas)
这个思路如何?

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
2 [报告]
发表于 2016-08-21 01:22 |只看该作者
本帖最后由 sunzhiguolu 于 2016-08-21 01:37 编辑
  1. #!/usr/bin/perl
  2. use strict;
  3. use warnings;

  4. my ($offset, $idx, $last) = (-1, 0, "");
  5. my (%grpMap, %grpCnt, @aTh, @aData);

  6. while (<>){
  7.     next if (/\A\s*ID/);
  8.     if ($last ne $ARGV){
  9.         $last = $ARGV;
  10.         %grpCnt = ();
  11.         $offset++;
  12.     }
  13.     my @aCols = split;
  14.     my $group = @aCols > 3 ? "@aCols[1, 2]" : $aCols[1];
  15.     if (!exists $grpMap{$group}){
  16.         $grpMap{$group} = $idx++;
  17.         push (@aTh, $group);
  18.     }
  19.     my $index = $grpMap{$group};
  20.     $aData[$index][$offset] = ++$grpCnt{$group};
  21. }

  22. print join ("\t", qw /group A1 A2 A3/), "\n";
  23. while (my ($gID, $gName) = each @aTh){
  24.     $aData[$gID][$offset] = $aData[$gID][$offset] // 0;
  25.     my @aT = map {defined ? $_ : 0} @{$aData[$gID]};
  26.     print join ("\t", $gName, @aT), "\n";
  27. }
复制代码
perl abc.pl a1.txt a2.txt a3.txt
----------------------------------------------------------------------
group   A1      A2      A3
s k     1       0       1
aa1     1       2       0
a b     2       1       1

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
3 [报告]
发表于 2016-08-21 21:32 |只看该作者
  1. #!/usr/bin/perl

  2. use strict;
  3. use warnings;

  4. use v5.14;
  5. use autodie;
  6. use Data::Dumper;

  7. sub load_data {
  8.   local @ARGV = @_;

  9.   my (%records, %groups);
  10.   while (<>) {
  11.     next if /^ID/;

  12.     my $group = (split)[1];
  13.     $records{$ARGV}->{$group} += 1;
  14.     $groups{$group} = 1;
  15.   }

  16.   return (\%records, \%groups);
  17. }

  18. ###

  19. my @files = @ARGV;
  20. my ($records, $groups) = load_data @files;

  21. print Dumper($records);

  22. say join("\t", 'group', map { s/\.txt//r } @files);

  23. foreach my $group (sort keys %$groups) {
  24.   say join("\t", $group, map { $_->{$group} // 0 } @{$records}{@files});
  25. }
复制代码

论坛徽章:
0
4 [报告]
发表于 2016-08-24 22:56 |只看该作者
本帖最后由 华小飞_Perl 于 2016-08-25 20:16 编辑
  1. #!/usr/bin/perl

  2. use warnings;
  3. use strict;
  4. use YAML;

  5. my (@calculation, @allstring);
  6. my @copy = my @filebak = grep { s/(\S+)\.txt/$1/ } @ARGV;

  7. foreach my $file (@ARGV) {
  8.         open DATA, '<', $file.'.txt' or die "Can't open the file $file: $!";
  9.         my $string_cal;                # autovivification
  10.         my $filename = shift @filebak;       
  11.         while (<DATA>) {
  12.                 chomp;
  13.                 next if (/^ID/);               
  14.                 my $catch = (split /\t+/)[1];
  15.                 $string_cal->{$filename}{$catch}++;
  16.         }       
  17.         push @calculation, $string_cal;
  18.         push @allstring, keys %{ $string_cal->{$filename} };
  19. }

  20. for my $hash_ref (@calculation) {
  21.         my $name = shift @copy;
  22.         for (@allstring) {
  23.                 $hash_ref->{$name}{$_} = 0 unless ( exists $hash_ref->{$name}{$_} );
  24.         }
  25. }

  26. print Dump( \@calculation );
复制代码

仅供参考~

论坛徽章:
6
15-16赛季CBA联赛之新疆
日期:2016-03-22 22:34:5915-16赛季CBA联赛之山东
日期:2016-04-11 09:08:41程序设计版块每日发帖之星
日期:2016-06-28 06:20:00程序设计版块每日发帖之星
日期:2016-07-19 06:20:00每日论坛发贴之星
日期:2016-07-19 06:20:0015-16赛季CBA联赛之青岛
日期:2016-07-20 22:44:17
5 [报告]
发表于 2016-08-25 02:48 |只看该作者
$>  perl aa.pl A?.txt
group   A1      A2      A3
s k     1       0       1
aa1     1       2       0
a b     2       1       1


aa.pl:

while (<>)
{
  next if (/group/);
my $Key  = $ARGV =~ s/.txt//r;
my ($group) = /\t(.+?)\t/;
$Keys->{$Key} ++;
$OUT->{$group}->{$Key} ++;
}


printf "group\t%s\n", join "\t",sort keys %$Keys;
for $G (reverse sort keys %$OUT)
{
  print "$G";
  printf "\t%d", $OUT->{$G}->{$_} for (sort keys %$Keys);
  print "\n";
}
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP