免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3256 | 回复: 8

一个文本处理的问题 [复制链接]

论坛徽章:
8
戌狗
日期:2014-09-26 16:39:44水瓶座
日期:2014-10-10 02:06:57金牛座
日期:2014-10-11 23:04:042015亚冠之首尔
日期:2015-06-23 15:37:0015-16赛季CBA联赛之天津
日期:2016-01-22 18:58:2915-16赛季CBA联赛之佛山
日期:2016-05-31 19:18:0815-16赛季CBA联赛之同曦
日期:2016-08-10 16:26:3315-16赛季CBA联赛之辽宁
日期:2018-01-10 11:47:40
发表于 2014-10-30 11:40 |显示全部楼层
本帖最后由 wiliiwin 于 2014-10-30 11:41 编辑

文件格式如下
  1. Contig1        10805        cell culture
  2. Contig1        5366        spike
  3. Contig100        38446        root
  4. Contig100        38446        root
  5. Contig1001        13750        root
  6. Contig1001        13750        root
  7. Contig1002        10216        callus
复制代码
第一列比较,如果相同则统计第三列出现的次数
结果
  1. Contig1        cell culture        1        spike        1
  2. Contig100        root        2               
  3. Contig1001        root        2               
  4. Contig1002        callus        1            
复制代码
最近才学习perl,死活都想不到如何去做这个文本处理的问题,请指教

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
发表于 2014-10-30 13:33 |显示全部楼层
二维哈希咯~

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
发表于 2014-10-30 13:45 |显示全部楼层
  1. my $h = {};
  2. while(<DATA>){
  3.         chomp;
  4.         my ($k1, $k2) = (split)[0,2];
  5.         $h{$k1}{$k2} ++;
  6. }

  7. foreach my $k1 (sort keys %h){
  8.         my $h2 = $h{$k1};
  9.         print $k1."\t";
  10.         foreach my $k2 (sort keys %$h2){
  11.                 print $k2.":".$h2->{$k2}.";";
  12.         }
  13.         print $/;
  14. }

  15. __DATA__
  16. Contig1        10805        cell culture
  17. Contig1        5366        spike
  18. Contig100        38446        root
  19. Contig100        38446        root
  20. Contig1001        13750        root
  21. Contig1001        13750        root
  22. Contig1002        10216        callus
复制代码

论坛徽章:
5
技术图书徽章
日期:2014-04-18 08:52:38午马
日期:2014-04-30 13:28:11摩羯座
日期:2014-11-07 13:34:122015年亚洲杯之日本
日期:2015-03-12 14:01:4915-16赛季CBA联赛之北京
日期:2017-06-28 17:25:56
发表于 2014-10-30 14:03 |显示全部楼层
  1. use v5.10;
  2. use strict;
  3. use warnings;
  4. my %hash;
  5. while(<DATA>){
  6.         chomp;
  7.         my @arr=split(/\s+/,$_,3);
  8.         $hash{$arr[0]}->{$arr[2]}++;
  9. }

  10. for my $i(keys(%hash)){
  11.         print $i;
  12.         for my $j(keys(%{$hash{$i}})){
  13.                 print "\t$j\t",$hash{$i}->{$j};
  14.         }
  15.         print "\n"
  16. }



  17. __DATA__
  18. Contig1        10805        cell culture
  19. Contig1        5366        spike
  20. Contig100        38446        root
  21. Contig100        38446        root
  22. Contig1001        13750        root
  23. Contig1001        13750        root
  24. Contig1002        10216        callus
复制代码

论坛徽章:
1
羊年新春福章
日期:2015-04-28 20:40:58
发表于 2014-10-30 14:07 |显示全部楼层
很菜的写法~
  1. #!/usr/bin/perl -w
  2. use strict;
  3. my %hash;
  4. while (<DATA>){
  5. chomp;
  6. my ($name,$non,$inf) = split /\s\s+/,$_;
  7. push @{$hash{$name}},$inf;
  8. }
  9. foreach my $k (sort keys %hash){
  10. my %h;
  11. print "$k";
  12.   for my $s (@{$hash{$k}}){
  13.   $h{$s}++;
  14.   }
  15.   foreach my $discribe (sort keys %h){
  16.   print "\t$discribe\t$h{$discribe}";
  17.   }
  18. print "\n";
  19. }

  20. __DATA__
  21. Contig1        10805        cell culture
  22. Contig1        5366        spike
  23. Contig100        38446        root
  24. Contig100        38446        root
  25. Contig1001        13750        root
  26. Contig1001        13750        root
  27. Contig1002        10216        callus
复制代码
回复 1# wiliiwin


   

论坛徽章:
8
戌狗
日期:2014-09-26 16:39:44水瓶座
日期:2014-10-10 02:06:57金牛座
日期:2014-10-11 23:04:042015亚冠之首尔
日期:2015-06-23 15:37:0015-16赛季CBA联赛之天津
日期:2016-01-22 18:58:2915-16赛季CBA联赛之佛山
日期:2016-05-31 19:18:0815-16赛季CBA联赛之同曦
日期:2016-08-10 16:26:3315-16赛季CBA联赛之辽宁
日期:2018-01-10 11:47:40
发表于 2014-10-30 14:14 |显示全部楼层
  perl学的还真不行 还需要继续学习  

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
发表于 2014-10-30 16:49 |显示全部楼层
  1. cat ufile | awk '{print $1, $3}' | sort | uniq -c | awk '{print $2, $3, $1}'
复制代码

论坛徽章:
8
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015小元宵徽章
日期:2015-03-06 15:58:18每日论坛发贴之星
日期:2015-06-08 22:20:00每日论坛发贴之星
日期:2015-06-08 22:20:00操作系统版块每日发帖之星
日期:2015-06-14 22:20:00数据库技术版块每日发帖之星
日期:2015-11-09 06:20:00数据库技术版块每日发帖之星
日期:2016-02-22 06:20:0015-16赛季CBA联赛之上海
日期:2017-01-01 23:58:53
发表于 2014-11-03 09:20 |显示全部楼层
我也正在学习perl,本来想考虑学习python的但是python的缩进我不太喜欢,所以还是觉得perl简单 楼主能不能加个qq共同学习进步下?

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
发表于 2014-11-03 11:42 |显示全部楼层
  1. #!/usr/bin/perl
  2. use strict;
  3. use warnings;

  4. my %hash;
  5. while(<DATA>){
  6.         chomp;
  7.         my @field = split /\s{2,}/;
  8.         $hash{$field[0]}{$field[2]}++;
  9. }
  10. for my $k (sort keys %hash){
  11.         print $k;
  12.         print "\t$_\t$hash{$k}{$_}" for sort keys %{$hash{$k}};
  13.         print $/;
  14. }

  15. __DATA__
  16. Contig1        10805        cell culture
  17. Contig1        5366        spike
  18. Contig100        38446        root
  19. Contig100        38446        root
  20. Contig1001        13750        root
  21. Contig1001        13750        root
  22. Contig1002        10216        callus
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP