免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2263 | 回复: 9
打印 上一主题 下一主题

统计信息 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-10-19 23:08 |只看该作者 |倒序浏览
本帖最后由 zero_BX 于 2016-10-19 23:09 编辑

请教匹配提取文本的信息,
文本如下:
然后我想统计有#行绿色部分信息到一个新文件,提取X,Y后的数字和/后的数字,ID用>后的数字加字母X表示
>ENS 5                                                 得到: ID    num    XX    YY
1       13, >A1/X2Y2/13... #                              X5    13      2      2
>ENS 6                                                           X6    11       3      4
1       14, >A4/X3Y4/11... #                              X7    17      1       8                     
2       14, >A4/X1Y2/12...
>ENS 7
1       16, >A5/X1Y8/17... #



论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
2 [报告]
发表于 2016-10-20 00:06 |只看该作者
本帖最后由 sunzhiguolu 于 2016-10-20 00:11 编辑
  1. #!/usr/bin/perl
  2. use strict;
  3. use warnings;

  4. my $id;
  5. while (<DATA>){
  6.     if (/\A>.*\b(\d+)/){
  7.         $id = "X$1";
  8.         next;
  9.     }
  10.     if (y/#//d and /\/(\S+)/){
  11.         my @aData = grep $_, split (/\D+/, $1);
  12.         print join (" ", $id, @aData[-1, 0, 1]), "\n";
  13.     }
  14. }

  15. __DATA__
  16. >ENS 5
  17. 1       13, >A1/X2Y2/13... #
  18. >ENS 6
  19. 1       14, >A4/X3Y4/11... #
  20. 2       14, >A4/X1Y2/12
  21. >ENS 7
  22. 1       16, >A5/X1Y8/17... #
复制代码

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
3 [报告]
发表于 2016-10-20 09:51 |只看该作者

  1. awk 'BEGIN{print "ID num XX YY"}/^>/{s="x"$2;next}/#/{match($3,">.*/X([0-9]+)Y([0-9]+)/([0-9]+)",a);print s,a[3],a[1],a[2]}'|column -t
复制代码

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
4 [报告]
发表于 2016-10-20 10:02 |只看该作者

  1. sed -r '1{x;s/.*/ID num XX YY/p;x};/^>/{s/.*\s([0-9]+).*/\1x/;h;d};/#/{G;s#.*, >.*/X([0-9]+)Y([0-9]+)/([0-9]+).*\n(.*)#\4 \3 \1 \2#p};d'|column -t
复制代码

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
5 [报告]
发表于 2016-10-20 10:48 |只看该作者
回复 1# zero_BX

$ cat FILE
>ENS 5
1       13, >A1/X2Y2/13... #
>ENS 6
1       14, >A4/X3Y4/11... #
2       14, >A4/X1Y2/12
>ENS 7
1       16, >A5/X1Y8/17... #


$ perl get_id_xy.pl FILE
ID    num    XX    YY
X5    13    2    2
X6    11    3    4
X7    17    1    8


$ cat get_id_xy.pl
use strict;
use warnings;


sub out{
  print join("\t",@_),"\n";
}

my $sId;
out("ID","num","XX","YY");

while (<>){
  # >ENS 5
  if(/^>ENS\s+(\d+)/){
    $sId = "X$1";
    next;
  }
  # 1       13, >A1/X2Y2/13... #
  if(m/#\s*$/){
    if(m|/X(\d+)Y(\d+)/(\d+)|){
      out($sId, $3, $1, $2);
    }
  }
}

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
6 [报告]
发表于 2016-10-20 11:01 |只看该作者
回复 5# jason680
借楼主的宝地问下, 大神 对于下面这种格式的文本 如何进行匹配: 提取第二对花括号内字符串, 有啥好的方法, 谢谢大神...
set_rtl_to_gate_name -rtl {ia_subsys/bia/punit_par/grp_punit/punit_mem/punit_context_ebb/genblk1.non_stack_slices[2].rf_dfx_wrapper_context_rf/context_rf_ip.context_rf_8.context_rf_1273_generic_imc_8.punit_1r1w_32x64_imc_wrp/punitth32x64x1w_dft_wrp_inst/DOB_mem[35]} -gate [get_net {ia_subsys/bia/punit_par/grp_punit/punit_mem/punit_context_ebb/genblk1Xnon_stack_slices[2]Xrf_dfx_wrapper_context_rf/context_rf_ipXcontext_rf_8Xcontext_rf_1273_generic_imc_8Xpunit_1r1w_32x64_imc_wrp/punitth32x64x1w_dft_wrp_inst/DOB_mem[35]}]
好像不太理想, 还请您指点...
  1. if (/.*\{([^}]+)/){
  2.     $k=$1;
  3. }
复制代码




论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
7 [报告]
发表于 2016-10-20 11:18 |只看该作者
这样?
  1. m/[^}]+[^{]+\{([^}]+)/
复制代码

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
8 [报告]
发表于 2016-10-20 23:59 |只看该作者
回复 6# sunzhiguolu

>> ...提取第二对花括号内字符串...


本帖(统计信息)不相关,不再回帖

论坛徽章:
0
9 [报告]
发表于 2016-11-08 21:51 |只看该作者
  1. #!/usr/bin/perl

  2. use warnings;
  3. use strict;

  4. my $id;
  5. my @title = qw( ID num XX YY );
  6. print join "\t", @title, "\n";
  7. while (<>) {
  8.         chomp;
  9.         if (/>ENS\s+(\d)/) {
  10.                 $id = $1;               
  11.         } elsif (/\/X(\d)Y(\d)\/(\d+).*?\#/) {
  12.                 my @ary = ( "X".$id, $3, $1, $2 );
  13.                 print join "\t", @ary, "\n";
  14.         } else {
  15.                 next;
  16.         }
  17. }
复制代码

论坛徽章:
0
10 [报告]
发表于 2016-11-10 16:25 |只看该作者
#!/usr/bin/perl
print "ID\tnum\tXX\tYY\n";
my $id;
while(<DATA>){
$id=$1 if />ENS\s+(\d)/;
print "X$id\t$1\t$2\t$3\n" if(/\d\s+(\d+).*>.*X(\d)+Y(\d)+\/(\d)+.*#/);
}
__DATA__
>ENS 5                                                
1       13, >A1/X2Y2/13... #                              
>ENS 6                                                   
1       14, >A4/X3Y4/11... #                                                
2       14, >A4/X1Y2/12...
>ENS 7
1       16, >A5/X1Y8/17... #
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP