免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 5841 | 回复: 21

文本格式转换 [复制链接]

论坛徽章:
4
程序设计版块每日发帖之星
日期:2015-10-14 06:20:00每日论坛发贴之星
日期:2015-10-14 06:20:00程序设计版块每日发帖之星
日期:2016-05-02 06:20:00程序设计版块每日发帖之星
日期:2016-05-08 06:20:00
发表于 2016-06-22 10:33 |显示全部楼层
25可用积分
本帖最后由 mswsg 于 2016-06-22 10:45 编辑

输入文件格式如下:
  1. C4 Alignment:
  2. ------------
  3.          Query: 11117564
  4.         Target: 3B|422103491-422104237|422103490-422104238
  5.          Model: est2genome
  6.      Raw score: 2560
  7.    Query range: 0 -> 588
  8.   Target range: 2 -> 748

  9.    1 : CCGCCGCCGCCATGTATTCCTCTCCGACCTCGCCTAGAGCAGCCAGCAGGATGCCACCGCCGTG :  64
  10.        |||||||||||||||| |||||||||||||||||| |||||||||||| |||||| ||||||||
  11.    3 : CCGCCGCCGCCATGTAATCCTCTCCGACCTCGCCTGGAGCAGCCAGCAAGATGCCGCCGCCGTG :  66

  12.   65 : GCCGCCTCTCTCCCTTCTCTTCTCTTTTTCCCTACCTTTCTTTCTCCTCTAAA-T------TGC : 121
  13.        |||||||||||||||||||| |||||||||||||||||||| ||||||||||| |      ||
  14.   67 : GCCGCCTCTCTCCCTTCTCTCCTCTTTTTCCCTACCTTTCTCTCTCCTCTAAAGTCTAAACTGT : 130

  15. 122 : GTGCAGGTCCTCTCCGCAGGTGCTGCCATGGCC-CGTCATGGAGCTCGCCCCCGTGGGATGCAT : 184
  16.        ||||||||||||||| |||||||||||||||||  |||||||||||||||||||||||||||||
  17. 131 : GTGCAGGTCCTCTCCACAGGTGCTGCCATGGCCGTGTCATGGAGCTCGCCCCCGTGGGATGCAT : 194

  18. 185 : GCCCCTCCAACGACGCCCTGTCCAG  >>>> Target Intron 1 >>>>  GCACTACGAG : 219
  19.        |||||||||| ||||||||||||||++          67 bp          ++||||  ||||
  20. 195 : GCCCCTCCAATGACGCCCTGTCCAGgt.........................agGCACCGCGAG : 296

  21. 220 : CGCACTGGACGGCAGGAAGGGCTGCGTCAAGGAGCGACGCATTGCT  >>>> Target Intr : 266
  22.        ||| ||||||||||  ||||| |||||||||||||||||||||| |++          83 bp
  23. 297 : CGCGCTGGACGGCAAAAAGGGTTGCGTCAAGGAGCGACGCATTGTTgt................ : 345

  24. 267 : on 2 >>>>  CGTGGACATCGCCTAGCGATCAGATTTGATGTTGAGAAAGACCCGGCAGGAAG : 318
  25.                 ++||||||||||||||||| ||||||||||||||||||||||| |||||||||||
  26. 346 : .........agCGTGGACATCGCCTAGCAATCAGATTTGATGTTGAGAAAGATCCGGCAGGAAG : 478

  27. 319 : ATCTCATCCTGGAACCCAGGTGTGCTTGATTTGATATTGAGAATTCTACTTGATAGGTATGTAC : 382
  28.        |||||||||||||||||||| ||||||||||||||||||||||||||||||| |||||||||||
  29. 479 : ATCTCATCCTGGAACCCAGGAGTGCTTGATTTGATATTGAGAATTCTACTTGCTAGGTATGTAC : 542

  30. 383 : ATGGATAGCGTACGGTGTATCCAAAGCTTTGCTTAACCTGAAATTTGTTAAAACGAATCTCTGG : 446
  31.        || |||||||||||||||||||||||||||| |||||||||||||||||||| | |||||| |
  32. 543 : ATAGATAGCGTACGGTGTATCCAAAGCTTTGTTTAACCTGAAATTTGTTAAAGCTAATCTCAGA : 606

  33. 447 : TTTAGTAGAAGCCCACAGCGGTTGCAATACTAGAGTTATATCTATTGTGGGCAACATTGAAAAA : 510
  34.        ||||||||||||||||||||||||||||| |||||||||||||| |||||||||||||||||||
  35. 607 : TTTAGTAGAAGCCCACAGCGGTTGCAATATTAGAGTTATATCTAGTGTGGGCAACATTGAAAAA : 670

  36. 511 : TTGCATATATCTAATCATCGTATATGTTATCACCTCTGAAACTGTGCAACATTACTACAAGATA : 574
  37.        ||||||||||||||||||||||| ||||||||||||| ||||||||||||||||||||||||||
  38. 671 : TTGCATATATCTAATCATCGTATGTGTTATCACCTCTAAAACTGTGCAACATTACTACAAGATA : 734

  39. 575 : AATCCACGAAGCAG : 588
  40.        ||||||||||||||
  41. 735 : AATCCACGAAGCAG : 748

  42. C4 Alignment:
  43. ------------
  44.          Query: 11440519
  45.         Target: 3B|67788210-67788687|67788209-67788688 [revcomp]
  46.          Model: est2genome
  47.      Raw score: 2385
  48.    Query range: 0 -> 477
  49.   Target range: 479 -> 2

  50.    1 : TAACCGCTCGAGATATTCGGTTACCGCGCGGTTACCACGTTTATCGCTCCCCCACGATAAACAC :  64
  51.        ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  52. 479 : TAACCGCTCGAGATATTCGGTTACCGCGCGGTTACCACGTTTATCGCTCCCCCACGATAAACAC : 416

  53.   65 : TCATACCGAGCAAAAAATCCCGATTTTTTTGAAATATTTGAATTCAAACGATCGCCTTGTAGTT : 128
  54.        ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  55. 415 : TCATACCGAGCAAAAAATCCCGATTTTTTTGAAATATTTGAATTCAAACGATCGCCTTGTAGTT : 352

  56. 129 : AAATAAGCTGCATCTGTGTTTTAAACAGAGAACTTATCGTGGCCCAGTGGCAAAAGGTGTTTTA : 192
  57.        ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  58. 351 : AAATAAGCTGCATCTGTGTTTTAAACAGAGAACTTATCGTGGCCCAGTGGCAAAAGGTGTTTTA : 288

  59. 193 : TCGCCAGACGTTGGTCGAGGGTTCGACTCGGGCTACGCACTGCTTTTTTAAACTTTTAGAGATG : 256
  60.        ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  61. 287 : TCGCCAGACGTTGGTCGAGGGTTCGACTCGGGCTACGCACTGCTTTTTTAAACTTTTAGAGATG : 224

  62. 257 : CAAAAGTGTTTACCTATGAAAAATTCTGGAGAAGACAGGGATCGAACTCGGGGCGCCTGAGCAA : 320
  63.        ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  64. 223 : CAAAAGTGTTTACCTATGAAAAATTCTGGAGAAGACAGGGATCGAACTCGGGGCGCCTGAGCAA : 160

  65. 321 : GGGATAGCTGCGGGTTGAGAGCCACTACGGTAGAACAACCTTACTGACTATTAATAGTTAAAAG : 384
  66.        ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  67. 159 : GGGATAGCTGCGGGTTGAGAGCCACTACGGTAGAACAACCTTACTGACTATTAATAGTTAAAAG :  96

  68. 385 : CTCATATATCTAACTCAAAAAAATTGAATTCAAAATTTGGTTTTAAATTTCGTCCGAATTTTTT : 448
  69.        ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  70.   95 : CTCATATATCTAACTCAAAAAAATTGAATTCAAAATTTGGTTTTAAATTTCGTCCGAATTTTTT :  32

  71. 449 : TCGGTAATTCGTGGTTACCGAGAATCTCG : 477
  72.        | | |||||||||||||||||||||||||
  73.   31 : TCGGTAATTCGTGGTTACCGAGAATCTCG :   3
复制代码
获取标红的结果,结果显示见最后:
C4 Alignment:
------------
         Query: 11117564
        Target: 3B|422103491-422104237|422103490-422104238
         Model: est2genome
     Raw score: 2560
   Query range: 0 -> 588
  Target range: 2 -> 748

   1 : CCGCCGCCGCCATGTATTCCTCTCCGACCTCGCCTAGAGCAGCCAGCAGGATGCCACCGCCGTG :  64
       |||||||||||||||| |||||||||||||||||| |||||||||||| |||||| ||||||||
   3 : CCGCCGCCGCCATGTAATCCTCTCCGACCTCGCCTGGAGCAGCCAGCAAGATGCCGCCGCCGTG :  66

  65 : GCCGCCTCTCTCCCTTCTCTTCTCTTTTTCCCTACCTTTCTTTCTCCTCTAAA-T------TGC : 121
       |||||||||||||||||||| |||||||||||||||||||| ||||||||||| |      ||
  67 : GCCGCCTCTCTCCCTTCTCTCCTCTTTTTCCCTACCTTTCTCTCTCCTCTAAAGTCTAAACTGT : 130

122 : GTGCAGGTCCTCTCCGCAGGTGCTGCCATGGCC-CGTCATGGAGCTCGCCCCCGTGGGATGCAT : 184
       ||||||||||||||| |||||||||||||||||  |||||||||||||||||||||||||||||
131 : GTGCAGGTCCTCTCCACAGGTGCTGCCATGGCCGTGTCATGGAGCTCGCCCCCGTGGGATGCAT : 194

185 : GCCCCTCCAACGACGCCCTGTCCAG  >>>> Target Intron 1 >>>>  GCACTACGAG : 219
       |||||||||| ||||||||||||||++          67 bp          ++||||  ||||
195 : GCCCCTCCAATGACGCCCTGTCCAGgt.........................agGCACCGCGAG : 296

220 : CGCACTGGACGGCAGGAAGGGCTGCGTCAAGGAGCGACGCATTGCT  >>>> Target Intr : 266
       ||| ||||||||||  ||||| |||||||||||||||||||||| |++          83 bp
297 : CGCGCTGGACGGCAAAAAGGGTTGCGTCAAGGAGCGACGCATTGTTgt................ : 345

267 : on 2 >>>>  CGTGGACATCGCCTAGCGATCAGATTTGATGTTGAGAAAGACCCGGCAGGAAG : 318
                ++||||||||||||||||| ||||||||||||||||||||||| |||||||||||
346 : .........agCGTGGACATCGCCTAGCAATCAGATTTGATGTTGAGAAAGATCCGGCAGGAAG : 478

319 : ATCTCATCCTGGAACCCAGGTGTGCTTGATTTGATATTGAGAATTCTACTTGATAGGTATGTAC : 382
       |||||||||||||||||||| ||||||||||||||||||||||||||||||| |||||||||||
479 : ATCTCATCCTGGAACCCAGGAGTGCTTGATTTGATATTGAGAATTCTACTTGCTAGGTATGTAC : 542

383 : ATGGATAGCGTACGGTGTATCCAAAGCTTTGCTTAACCTGAAATTTGTTAAAACGAATCTCTGG : 446
       || |||||||||||||||||||||||||||| |||||||||||||||||||| | |||||| |
543 : ATAGATAGCGTACGGTGTATCCAAAGCTTTGTTTAACCTGAAATTTGTTAAAGCTAATCTCAGA : 606

447 : TTTAGTAGAAGCCCACAGCGGTTGCAATACTAGAGTTATATCTATTGTGGGCAACATTGAAAAA : 510
       ||||||||||||||||||||||||||||| |||||||||||||| |||||||||||||||||||
607 : TTTAGTAGAAGCCCACAGCGGTTGCAATATTAGAGTTATATCTAGTGTGGGCAACATTGAAAAA : 670

511 : TTGCATATATCTAATCATCGTATATGTTATCACCTCTGAAACTGTGCAACATTACTACAAGATA : 574
       ||||||||||||||||||||||| ||||||||||||| ||||||||||||||||||||||||||
671 : TTGCATATATCTAATCATCGTATGTGTTATCACCTCTAAAACTGTGCAACATTACTACAAGATA : 734

575 : AATCCACGAAGCAG : 588
       ||||||||||||||
735 : AATCCACGAAGCAG : 748

C4 Alignment:
------------
         Query: 11440519
        Target: 3B|67788210-67788687|67788209-67788688 [revcomp]
         Model: est2genome
     Raw score: 2385
   Query range: 0 -> 477
  Target range: 479 -> 2

   1 : TAACCGCTCGAGATATTCGGTTACCGCGCGGTTACCACGTTTATCGCTCCCCCACGATAAACAC :  64
       ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
479 : TAACCGCTCGAGATATTCGGTTACCGCGCGGTTACCACGTTTATCGCTCCCCCACGATAAACAC : 416

  65 : TCATACCGAGCAAAAAATCCCGATTTTTTTGAAATATTTGAATTCAAACGATCGCCTTGTAGTT : 128
       ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
415 : TCATACCGAGCAAAAAATCCCGATTTTTTTGAAATATTTGAATTCAAACGATCGCCTTGTAGTT : 352

129 : AAATAAGCTGCATCTGTGTTTTAAACAGAGAACTTATCGTGGCCCAGTGGCAAAAGGTGTTTTA : 192
       ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
351 : AAATAAGCTGCATCTGTGTTTTAAACAGAGAACTTATCGTGGCCCAGTGGCAAAAGGTGTTTTA : 288

193 : TCGCCAGACGTTGGTCGAGGGTTCGACTCGGGCTACGCACTGCTTTTTTAAACTTTTAGAGATG : 256
       ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
287 : TCGCCAGACGTTGGTCGAGGGTTCGACTCGGGCTACGCACTGCTTTTTTAAACTTTTAGAGATG : 224

257 : CAAAAGTGTTTACCTATGAAAAATTCTGGAGAAGACAGGGATCGAACTCGGGGCGCCTGAGCAA : 320
       ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
223 : CAAAAGTGTTTACCTATGAAAAATTCTGGAGAAGACAGGGATCGAACTCGGGGCGCCTGAGCAA : 160

321 : GGGATAGCTGCGGGTTGAGAGCCACTACGGTAGAACAACCTTACTGACTATTAATAGTTAAAAG : 384
       ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
159 : GGGATAGCTGCGGGTTGAGAGCCACTACGGTAGAACAACCTTACTGACTATTAATAGTTAAAAG :  96

385 : CTCATATATCTAACTCAAAAAAATTGAATTCAAAATTTGGTTTTAAATTTCGTCCGAATTTTTT : 448
       ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  95 : CTCATATATCTAACTCAAAAAAATTGAATTCAAAATTTGGTTTTAAATTTCGTCCGAATTTTTT :  32

449 : TCGGTAATTCGTGGTTACCGAGAATCTCG : 477
       |||||||||||||||||||||||||||||
  31 : TCGGTAATTCGTGGTTACCGAGAATCTCG :   3

python,结果展示:
>11117564 3B|422103491-422104237|422103490-422104238
CCGCCGCCGCCATGTAATCCTCTCCGACCTCGCCTGGAGCAGCCAGCAAGATGCCGCCGCCGTG
GCCGCCTCTCTCCCTTCTCTCCTCTTTTTCCCTACCTTTCTCTCTCCTCTAAAGTCTAAACTGT
GTGCAGGTCCTCTCCACAGGTGCTGCCATGGCCGTGTCATGGAGCTCGCCCCCGTGGGATGCAT
GCCCCTCCAATGACGCCCTGTCCAGGCACCGCGAG
CGCGCTGGACGGCAAAAAGGGTTGCGTCAAGGAGCGACGCATTGTT
CGTGGACATCGCCTAGCAATCAGATTTGATGTTGAGAAAGATCCGGCAGGAAG
ATCTCATCCTGGAACCCAGGAGTGCTTGATTTGATATTGAGAATTCTACTTGCTAGGTATGTAC
ATAGATAGCGTACGGTGTATCCAAAGCTTTGTTTAACCTGAAATTTGTTAAAGCTAATCTCAGA
TTTAGTAGAAGCCCACAGCGGTTGCAATATTAGAGTTATATCTAGTGTGGGCAACATTGAAAAA
TTGCATATATCTAATCATCGTATGTGTTATCACCTCTAAAACTGTGCAACATTACTACAAGATA
AATCCACGAAGCAG
>11440519 3B|67788210-67788687|67788209-67788688 [revcomp]
TAACCGCTCGAGATATTCGGTTACCGCGCGGTTACCACGTTTATCGCTCCCCCACGATAAACAC
TCATACCGAGCAAAAAATCCCGATTTTTTTGAAATATTTGAATTCAAACGATCGCCTTGTAGTT
AAATAAGCTGCATCTGTGTTTTAAACAGAGAACTTATCGTGGCCCAGTGGCAAAAGGTGTTTTA
TCGCCAGACGTTGGTCGAGGGTTCGACTCGGGCTACGCACTGCTTTTTTAAACTTTTAGAGATG
CAAAAGTGTTTACCTATGAAAAATTCTGGAGAAGACAGGGATCGAACTCGGGGCGCCTGAGCAA
GGGATAGCTGCGGGTTGAGAGCCACTACGGTAGAACAACCTTACTGACTATTAATAGTTAAAAG
CTCATATATCTAACTCAAAAAAATTGAATTCAAAATTTGGTTTTAAATTTCGTCCGAATTTTTT
TCGGTAATTCGTGGTTACCGAGAATCTCG

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
发表于 2016-06-22 12:04 |显示全部楼层
回复 1# mswsg
perl 的行吗?

   

论坛徽章:
4
程序设计版块每日发帖之星
日期:2015-10-14 06:20:00每日论坛发贴之星
日期:2015-10-14 06:20:00程序设计版块每日发帖之星
日期:2016-05-02 06:20:00程序设计版块每日发帖之星
日期:2016-05-08 06:20:00
发表于 2016-06-22 12:41 |显示全部楼层
你有时间的话也可以, 回复 2# sunzhiguolu


   

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
发表于 2016-06-22 12:54 |显示全部楼层
回复 3# mswsg
这画面也太暴力了!!!

   

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
发表于 2016-06-22 13:14 |显示全部楼层
回复 3# mswsg
试下,
  1. #!/usr/bin/perl -w
  2. use strict;

  3. $/ = '';
  4. my $head = '>';
  5. while (<>){
  6.     my @aData;
  7.     if (@aData = /(?|Query:\s(\S+)|Target:(\s\S+))/g){
  8.         print $head, @aData, "\n";
  9.         next;
  10.     }
  11.     print @aData, "\n" if ((@aData = split /\n/) and (@aData = $aData[-1] =~ /[A-Z]+/g));
  12. }
复制代码
perl abc.pl a
----------------------------------------------------------------------------
>11117564 3B|422103491-422104237|422103490-422104238
CCGCCGCCGCCATGTAATCCTCTCCGACCTCGCCTGGAGCAGCCAGCAAGATGCCGCCGCCGTG
GCCGCCTCTCTCCCTTCTCTCCTCTTTTTCCCTACCTTTCTCTCTCCTCTAAAGTCTAAACTGT
GTGCAGGTCCTCTCCACAGGTGCTGCCATGGCCGTGTCATGGAGCTCGCCCCCGTGGGATGCAT
GCCCCTCCAATGACGCCCTGTCCAGGCACCGCGAG
CGCGCTGGACGGCAAAAAGGGTTGCGTCAAGGAGCGACGCATTGTT
CGTGGACATCGCCTAGCAATCAGATTTGATGTTGAGAAAGATCCGGCAGGAAG
ATCTCATCCTGGAACCCAGGAGTGCTTGATTTGATATTGAGAATTCTACTTGCTAGGTATGTAC
ATAGATAGCGTACGGTGTATCCAAAGCTTTGTTTAACCTGAAATTTGTTAAAGCTAATCTCAGA
TTTAGTAGAAGCCCACAGCGGTTGCAATATTAGAGTTATATCTAGTGTGGGCAACATTGAAAAA
TTGCATATATCTAATCATCGTATGTGTTATCACCTCTAAAACTGTGCAACATTACTACAAGATA
AATCCACGAAGCAG
>11440519 3B|67788210-67788687|67788209-67788688
TAACCGCTCGAGATATTCGGTTACCGCGCGGTTACCACGTTTATCGCTCCCCCACGATAAACAC
TCATACCGAGCAAAAAATCCCGATTTTTTTGAAATATTTGAATTCAAACGATCGCCTTGTAGTT
AAATAAGCTGCATCTGTGTTTTAAACAGAGAACTTATCGTGGCCCAGTGGCAAAAGGTGTTTTA
TCGCCAGACGTTGGTCGAGGGTTCGACTCGGGCTACGCACTGCTTTTTTAAACTTTTAGAGATG
CAAAAGTGTTTACCTATGAAAAATTCTGGAGAAGACAGGGATCGAACTCGGGGCGCCTGAGCAA
GGGATAGCTGCGGGTTGAGAGCCACTACGGTAGAACAACCTTACTGACTATTAATAGTTAAAAG
CTCATATATCTAACTCAAAAAAATTGAATTCAAAATTTGGTTTTAAATTTCGTCCGAATTTTTT
TCGGTAATTCGTGGTTACCGAGAATCTCG


   

评分

参与人数 1可用积分 +5 收起 理由
mswsg + 5 赞一个!

查看全部评分

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
发表于 2016-06-22 13:36 |显示全部楼层
大神, 我来领分了...

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
发表于 2016-06-22 14:33 |显示全部楼层
本帖最后由 haooooaaa 于 2016-06-23 10:06 编辑
  1. import re
  2. with open("a","rb") as f:
  3.     content = f.read()
  4.     for i in re.split('C4 Alignment', content)[1:]:
  5.         print ">" + "".join(re.findall(r'Query: (.*)\n *Target: (.*)',i)[0])
  6.         print re.sub("[^A-Z\n]","","\n".join(re.findall(r'\|+[^\n]+\n *\d+ : ([^:]+)',i)))
复制代码
  1. awk '/Query:|Target:/{sub(" +"$1,"");printf m++%2?$0"\n":$1}/ +[0-9]+ :/&&i++%2{gsub("[^A-Z]","");print}'
复制代码

论坛徽章:
5
巨蟹座
日期:2014-08-28 18:12:342015年迎新春徽章
日期:2015-03-04 10:01:4415-16赛季CBA联赛之江苏
日期:2016-04-28 09:43:3115-16赛季CBA联赛之吉林
日期:2016-06-22 10:34:4315-16赛季CBA联赛之山西
日期:2016-08-16 16:29:55
发表于 2016-06-22 14:56 |显示全部楼层
代码比较丑.. 匆匆写了下..
  1. import re

  2. p1 = "Query:(.*)$"
  3. p2 = "Target:(.*)$"
  4. p3 = "(\|+)$"
  5. p4 = "([A-Z]+)"

  6. f = open('./sample.txt')
  7. result = []
  8. fl = f.readlines()
  9. ins = []
  10. xl = enumerate(map (lambda x: x.strip(), fl ))
  11. for index, line in xl:
  12.         match1 = re.search(p1,line)
  13.         match2 = re.search(p2,line)
  14.         match3 = re.search(p3,line)

  15.         if match1:
  16.                 if len(ins) > 1:
  17.                         result.append(ins)
  18.                 ins = []
  19.                 ins.append(match1.groups()[0])
  20.                
  21.         if match2:
  22.                 ins.append(match2.groups()[0])
  23.         if match3 and (index + 1) < len(fl):
  24.                 match4  = re.search(p4, fl[index + 1])
  25.                 ins.append(match4.groups()[0])
  26. result.append(ins)       
  27. for i in result:
  28.         print ''.join(i)
复制代码

评分

参与人数 1可用积分 +5 收起 理由
mswsg + 5 很给力!我在学习你的代码,非常感谢

查看全部评分

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
发表于 2016-06-22 16:30 |显示全部楼层
本帖最后由 sunzhiguolu 于 2016-06-22 16:35 编辑

这回对了,
  1. #!/usr/bin/perl -w

  2. $/ = '';
  3. while (<>){
  4.     my @aData;
  5.     if (@aData = /(?|Query:\s(\S+)|Target:(\s\S+(?:\s\[revcomp])?))/g){
  6.         print '>', @aData, "\n";
  7.         next;
  8.     }
  9.     print @aData, "\n" if ((@aData = split /\n/) and (@aData = $aData[-1] =~ /[A-Z]+/g));
  10. }
复制代码
>11117564 3B|422103491-422104237|422103490-422104238
CCGCCGCCGCCATGTAATCCTCTCCGACCTCGCCTGGAGCAGCCAGCAAGATGCCGCCGCCGTG
GCCGCCTCTCTCCCTTCTCTCCTCTTTTTCCCTACCTTTCTCTCTCCTCTAAAGTCTAAACTGT
GTGCAGGTCCTCTCCACAGGTGCTGCCATGGCCGTGTCATGGAGCTCGCCCCCGTGGGATGCAT
GCCCCTCCAATGACGCCCTGTCCAGGCACCGCGAG
CGCGCTGGACGGCAAAAAGGGTTGCGTCAAGGAGCGACGCATTGTT
CGTGGACATCGCCTAGCAATCAGATTTGATGTTGAGAAAGATCCGGCAGGAAG
ATCTCATCCTGGAACCCAGGAGTGCTTGATTTGATATTGAGAATTCTACTTGCTAGGTATGTAC
ATAGATAGCGTACGGTGTATCCAAAGCTTTGTTTAACCTGAAATTTGTTAAAGCTAATCTCAGA
TTTAGTAGAAGCCCACAGCGGTTGCAATATTAGAGTTATATCTAGTGTGGGCAACATTGAAAAA
TTGCATATATCTAATCATCGTATGTGTTATCACCTCTAAAACTGTGCAACATTACTACAAGATA
AATCCACGAAGCAG
>11440519 3B|67788210-67788687|67788209-67788688 [revcomp]
TAACCGCTCGAGATATTCGGTTACCGCGCGGTTACCACGTTTATCGCTCCCCCACGATAAACAC
TCATACCGAGCAAAAAATCCCGATTTTTTTGAAATATTTGAATTCAAACGATCGCCTTGTAGTT
AAATAAGCTGCATCTGTGTTTTAAACAGAGAACTTATCGTGGCCCAGTGGCAAAAGGTGTTTTA
TCGCCAGACGTTGGTCGAGGGTTCGACTCGGGCTACGCACTGCTTTTTTAAACTTTTAGAGATG
CAAAAGTGTTTACCTATGAAAAATTCTGGAGAAGACAGGGATCGAACTCGGGGCGCCTGAGCAA
GGGATAGCTGCGGGTTGAGAGCCACTACGGTAGAACAACCTTACTGACTATTAATAGTTAAAAG
CTCATATATCTAACTCAAAAAAATTGAATTCAAAATTTGGTTTTAAATTTCGTCCGAATTTTTT
TCGGTAATTCGTGGTTACCGAGAATCTCG

论坛徽章:
4
程序设计版块每日发帖之星
日期:2015-10-14 06:20:00每日论坛发贴之星
日期:2015-10-14 06:20:00程序设计版块每日发帖之星
日期:2016-05-02 06:20:00程序设计版块每日发帖之星
日期:2016-05-08 06:20:00
发表于 2016-06-22 17:24 |显示全部楼层
谢谢您,正在学习,和我想的思路有点不一样,正在学习。今天没分了,明天加回复 7# haooooaaa


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP