免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2908 | 回复: 1
打印 上一主题 下一主题

比对序列,提取 [复制链接]

论坛徽章:
4
程序设计版块每日发帖之星
日期:2015-10-14 06:20:00每日论坛发贴之星
日期:2015-10-14 06:20:00程序设计版块每日发帖之星
日期:2016-05-02 06:20:00程序设计版块每日发帖之星
日期:2016-05-08 06:20:00
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-10-11 10:44 |只看该作者 |倒序浏览
输入文件如下红字标出的是提取的部分:
C4 Alignment:
------------
         Query: 11117564
        Target: 3B|422103491-422104237|422103490-422104238
         Model: est2genome
     Raw score: 2560
   Query range: 0 -> 588
  Target range: 2 -> 748

   1 : CCGCCGCCGCCATGTATTCCTCTCCGACCTCGCCTAGAGCAGCCAGCAGGATGCCACCGCCGTG :  64
       |||||||||||||||| |||||||||||||||||| |||||||||||| |||||| ||||||||
   3 : CCGCCGCCGCCATGTAATCCTCTCCGACCTCGCCTGGAGCAGCCAGCAAGATGCCGCCGCCGTG :  66

  65 : GCCGCCTCTCTCCCTTCTCTTCTCTTTTTCCCTACCTTTCTTTCTCCTCTAAA-T------TGC : 121
       |||||||||||||||||||| |||||||||||||||||||| ||||||||||| |      ||
  67 : GCCGCCTCTCTCCCTTCTCTCCTCTTTTTCCCTACCTTTCTCTCTCCTCTAAAGTCTAAACTGT : 130

122 : GTGCAGGTCCTCTCCGCAGGTGCTGCCATGGCC-CGTCATGGAGCTCGCCCCCGTGGGATGCAT : 184
       ||||||||||||||| |||||||||||||||||  |||||||||||||||||||||||||||||
131 : GTGCAGGTCCTCTCCACAGGTGCTGCCATGGCCGTGTCATGGAGCTCGCCCCCGTGGGATGCAT : 194

185 : GCCCCTCCAACGACGCCCTGTCCAG  >>>> Target Intron 1 >>>>  GCACTACGAG : 219
       |||||||||| ||||||||||||||++          67 bp          ++||||  ||||
195 : GCCCCTCCAATGACGCCCTGTCCAGgt.........................agGCACCGCGAG : 296

220 : CGCACTGGACGGCAGGAAGGGCTGCGTCAAGGAGCGACGCATTGCT  >>>> Target Intr : 266
       ||| ||||||||||  ||||| |||||||||||||||||||||| |++          83 bp
297 : CGCGCTGGACGGCAAAAAGGGTTGCGTCAAGGAGCGACGCATTGTTgt................ : 345

267 : on 2 >>>>  CGTGGACATCGCCTAGCGATCAGATTTGATGTTGAGAAAGACCCGGCAGGAAG : 318
                ++||||||||||||||||| ||||||||||||||||||||||| |||||||||||
346 : .........agCGTGGACATCGCCTAGCAATCAGATTTGATGTTGAGAAAGATCCGGCAGGAAG : 478

319 : ATCTCATCCTGGAACCCAGGTGTGCTTGATTTGATATTGAGAATTCTACTTGATAGGTATGTAC : 382
       |||||||||||||||||||| ||||||||||||||||||||||||||||||| |||||||||||
479 : ATCTCATCCTGGAACCCAGGAGTGCTTGATTTGATATTGAGAATTCTACTTGCTAGGTATGTAC : 542

383 : ATGGATAGCGTACGGTGTATCCAAAGCTTTGCTTAACCTGAAATTTGTTAAAACGAATCTCTGG : 446
       || |||||||||||||||||||||||||||| |||||||||||||||||||| | |||||| |
543 : ATAGATAGCGTACGGTGTATCCAAAGCTTTGTTTAACCTGAAATTTGTTAAAGCTAATCTCAGA : 606

447 : TTTAGTAGAAGCCCACAGCGGTTGCAATACTAGAGTTATATCTATTGTGGGCAACATTGAAAAA : 510
       ||||||||||||||||||||||||||||| |||||||||||||| |||||||||||||||||||
607 : TTTAGTAGAAGCCCACAGCGGTTGCAATATTAGAGTTATATCTAGTGTGGGCAACATTGAAAAA : 670

511 : TTGCATATATCTAATCATCGTATATGTTATCACCTCTGAAACTGTGCAACATTACTACAAGATA : 574
       ||||||||||||||||||||||| ||||||||||||| ||||||||||||||||||||||||||
671 : TTGCATATATCTAATCATCGTATGTGTTATCACCTCTAAAACTGTGCAACATTACTACAAGATA : 734

575 : AATCCACGAAGCAG : 588
       ||||||||||||||
735 : AATCCACGAAGCAG : 748

C4 Alignment:
------------
         Query: 11440519
        Target: 3B|67788210-67788687|67788209-67788688 [revcomp]
         Model: est2genome
     Raw score: 2385
   Query range: 0 -> 477
  Target range: 479 -> 2

   1 : TAACCGCTCGAGATATTCGGTTACCGCGCGGTTACCACGTTTATCGCTCCCCCACGATAAACAC :  64
       ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
479 : TAACCGCTCGAGATATTCGGTTACCGCGCGGTTACCACGTTTATCGCTCCCCCACGATAAACAC : 416

  65 : TCATACCGAGCAAAAAATCCCGATTTTTTTGAAATATTTGAATTCAAACGATCGCCTTGTAGTT : 128
       ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
415 : TCATACCGAGCAAAAAATCCCGATTTTTTTGAAATATTTGAATTCAAACGATCGCCTTGTAGTT : 352

129 : AAATAAGCTGCATCTGTGTTTTAAACAGAGAACTTATCGTGGCCCAGTGGCAAAAGGTGTTTTA : 192
       ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
351 : AAATAAGCTGCATCTGTGTTTTAAACAGAGAACTTATCGTGGCCCAGTGGCAAAAGGTGTTTTA : 288

193 : TCGCCAGACGTTGGTCGAGGGTTCGACTCGGGCTACGCACTGCTTTTTTAAACTTTTAGAGATG : 256
       ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
287 : TCGCCAGACGTTGGTCGAGGGTTCGACTCGGGCTACGCACTGCTTTTTTAAACTTTTAGAGATG : 224

257 : CAAAAGTGTTTACCTATGAAAAATTCTGGAGAAGACAGGGATCGAACTCGGGGCGCCTGAGCAA : 320
       ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
223 : CAAAAGTGTTTACCTATGAAAAATTCTGGAGAAGACAGGGATCGAACTCGGGGCGCCTGAGCAA : 160

321 : GGGATAGCTGCGGGTTGAGAGCCACTACGGTAGAACAACCTTACTGACTATTAATAGTTAAAAG : 384
       ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
159 : GGGATAGCTGCGGGTTGAGAGCCACTACGGTAGAACAACCTTACTGACTATTAATAGTTAAAAG :  96

385 : CTCATATATCTAACTCAAAAAAATTGAATTCAAAATTTGGTTTTAAATTTCGTCCGAATTTTTT : 448
       ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  95 : CTCATATATCTAACTCAAAAAAATTGAATTCAAAATTTGGTTTTAAATTTCGTCCGAATTTTTT :  32

449 : TCGGTAATTCGTGGTTACCGAGAATCTCG : 477
       |||||||||||||||||||||||||||||
  31 : TCGGTAATTCGTGGTTACCGAGAATCTCG :   3
结果如下:
>11117564 3B|422103491-422104237|422103490-422104238
CCGCCGCCGCCATGTAATCCTCTCCGACCTCGCCTGGAGCAGCCAGCAAGATGCCGCCGCCGTG
GCCGCCTCTCTCCCTTCTCTCCTCTTTTTCCCTACCTTTCTCTCTCCTCTAAAGTCTAAACTGT
GTGCAGGTCCTCTCCACAGGTGCTGCCATGGCCGTGTCATGGAGCTCGCCCCCGTGGGATGCAT
GCCCCTCCAATGACGCCCTGTCCAGgt.........................agGCACCGCGAG
CGCGCTGGACGGCAAAAAGGGTTGCGTCAAGGAGCGACGCATTGTTgt................
.........agCGTGGACATCGCCTAGCAATCAGATTTGATGTTGAGAAAGATCCGGCAGGAAG
ATCTCATCCTGGAACCCAGGAGTGCTTGATTTGATATTGAGAATTCTACTTGCTAGGTATGTAC
ATAGATAGCGTACGGTGTATCCAAAGCTTTGTTTAACCTGAAATTTGTTAAAGCTAATCTCAGA
TTTAGTAGAAGCCCACAGCGGTTGCAATATTAGAGTTATATCTAGTGTGGGCAACATTGAAAAA
TTGCATATATCTAATCATCGTATGTGTTATCACCTCTAAAACTGTGCAACATTACTACAAGATA
AATCCACGAAGCAG
>11440519 3B|67788210-67788687|67788209-67788688 [revcomp]
TAACCGCTCGAGATATTCGGTTACCGCGCGGTTACCACGTTTATCGCTCCCCCACGATAAACAC
TCATACCGAGCAAAAAATCCCGATTTTTTTGAAATATTTGAATTCAAACGATCGCCTTGTAGTT
AAATAAGCTGCATCTGTGTTTTAAACAGAGAACTTATCGTGGCCCAGTGGCAAAAGGTGTTTTA
TCGCCAGACGTTGGTCGAGGGTTCGACTCGGGCTACGCACTGCTTTTTTAAACTTTTAGAGATG
CAAAAGTGTTTACCTATGAAAAATTCTGGAGAAGACAGGGATCGAACTCGGGGCGCCTGAGCAA
GGGATAGCTGCGGGTTGAGAGCCACTACGGTAGAACAACCTTACTGACTATTAATAGTTAAAAG
CTCATATATCTAACTCAAAAAAATTGAATTCAAAATTTGGTTTTAAATTTCGTCCGAATTTTTT
TCGGTAATTCGTGGTTACCGAGAATCTCG
下面贴上例子:
  1. C4 Alignment:
  2. ------------
  3.          Query: 11117564
  4.         Target: 3B|422103491-422104237|422103490-422104238
  5.          Model: est2genome
  6.      Raw score: 2560
  7.    Query range: 0 -> 588
  8.   Target range: 2 -> 748

  9.    1 : CCGCCGCCGCCATGTATTCCTCTCCGACCTCGCCTAGAGCAGCCAGCAGGATGCCACCGCCGTG :  64
  10.        |||||||||||||||| |||||||||||||||||| |||||||||||| |||||| ||||||||
  11.    3 : CCGCCGCCGCCATGTAATCCTCTCCGACCTCGCCTGGAGCAGCCAGCAAGATGCCGCCGCCGTG :  66

  12.   65 : GCCGCCTCTCTCCCTTCTCTTCTCTTTTTCCCTACCTTTCTTTCTCCTCTAAA-T------TGC : 121
  13.        |||||||||||||||||||| |||||||||||||||||||| ||||||||||| |      ||
  14.   67 : GCCGCCTCTCTCCCTTCTCTCCTCTTTTTCCCTACCTTTCTCTCTCCTCTAAAGTCTAAACTGT : 130

  15. 122 : GTGCAGGTCCTCTCCGCAGGTGCTGCCATGGCC-CGTCATGGAGCTCGCCCCCGTGGGATGCAT : 184
  16.        ||||||||||||||| |||||||||||||||||  |||||||||||||||||||||||||||||
  17. 131 : GTGCAGGTCCTCTCCACAGGTGCTGCCATGGCCGTGTCATGGAGCTCGCCCCCGTGGGATGCAT : 194

  18. 185 : GCCCCTCCAACGACGCCCTGTCCAG  >>>> Target Intron 1 >>>>  GCACTACGAG : 219
  19.        |||||||||| ||||||||||||||++          67 bp          ++||||  ||||
  20. 195 : GCCCCTCCAATGACGCCCTGTCCAGgt.........................agGCACCGCGAG : 296

  21. 220 : CGCACTGGACGGCAGGAAGGGCTGCGTCAAGGAGCGACGCATTGCT  >>>> Target Intr : 266
  22.        ||| ||||||||||  ||||| |||||||||||||||||||||| |++          83 bp
  23. 297 : CGCGCTGGACGGCAAAAAGGGTTGCGTCAAGGAGCGACGCATTGTTgt................ : 345

  24. 267 : on 2 >>>>  CGTGGACATCGCCTAGCGATCAGATTTGATGTTGAGAAAGACCCGGCAGGAAG : 318
  25.                 ++||||||||||||||||| ||||||||||||||||||||||| |||||||||||
  26. 346 : .........agCGTGGACATCGCCTAGCAATCAGATTTGATGTTGAGAAAGATCCGGCAGGAAG : 478

  27. 319 : ATCTCATCCTGGAACCCAGGTGTGCTTGATTTGATATTGAGAATTCTACTTGATAGGTATGTAC : 382
  28.        |||||||||||||||||||| ||||||||||||||||||||||||||||||| |||||||||||
  29. 479 : ATCTCATCCTGGAACCCAGGAGTGCTTGATTTGATATTGAGAATTCTACTTGCTAGGTATGTAC : 542

  30. 383 : ATGGATAGCGTACGGTGTATCCAAAGCTTTGCTTAACCTGAAATTTGTTAAAACGAATCTCTGG : 446
  31.        || |||||||||||||||||||||||||||| |||||||||||||||||||| | |||||| |
  32. 543 : ATAGATAGCGTACGGTGTATCCAAAGCTTTGTTTAACCTGAAATTTGTTAAAGCTAATCTCAGA : 606

  33. 447 : TTTAGTAGAAGCCCACAGCGGTTGCAATACTAGAGTTATATCTATTGTGGGCAACATTGAAAAA : 510
  34.        ||||||||||||||||||||||||||||| |||||||||||||| |||||||||||||||||||
  35. 607 : TTTAGTAGAAGCCCACAGCGGTTGCAATATTAGAGTTATATCTAGTGTGGGCAACATTGAAAAA : 670

  36. 511 : TTGCATATATCTAATCATCGTATATGTTATCACCTCTGAAACTGTGCAACATTACTACAAGATA : 574
  37.        ||||||||||||||||||||||| ||||||||||||| ||||||||||||||||||||||||||
  38. 671 : TTGCATATATCTAATCATCGTATGTGTTATCACCTCTAAAACTGTGCAACATTACTACAAGATA : 734

  39. 575 : AATCCACGAAGCAG : 588
  40.        ||||||||||||||
  41. 735 : AATCCACGAAGCAG : 748

  42. C4 Alignment:
  43. ------------
  44.          Query: 11440519
  45.         Target: 3B|67788210-67788687|67788209-67788688 [revcomp]
  46.          Model: est2genome
  47.      Raw score: 2385
  48.    Query range: 0 -> 477
  49.   Target range: 479 -> 2

  50.    1 : TAACCGCTCGAGATATTCGGTTACCGCGCGGTTACCACGTTTATCGCTCCCCCACGATAAACAC :  64
  51.        ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  52. 479 : TAACCGCTCGAGATATTCGGTTACCGCGCGGTTACCACGTTTATCGCTCCCCCACGATAAACAC : 416

  53.   65 : TCATACCGAGCAAAAAATCCCGATTTTTTTGAAATATTTGAATTCAAACGATCGCCTTGTAGTT : 128
  54.        ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  55. 415 : TCATACCGAGCAAAAAATCCCGATTTTTTTGAAATATTTGAATTCAAACGATCGCCTTGTAGTT : 352

  56. 129 : AAATAAGCTGCATCTGTGTTTTAAACAGAGAACTTATCGTGGCCCAGTGGCAAAAGGTGTTTTA : 192
  57.        ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  58. 351 : AAATAAGCTGCATCTGTGTTTTAAACAGAGAACTTATCGTGGCCCAGTGGCAAAAGGTGTTTTA : 288

  59. 193 : TCGCCAGACGTTGGTCGAGGGTTCGACTCGGGCTACGCACTGCTTTTTTAAACTTTTAGAGATG : 256
  60.        ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  61. 287 : TCGCCAGACGTTGGTCGAGGGTTCGACTCGGGCTACGCACTGCTTTTTTAAACTTTTAGAGATG : 224

  62. 257 : CAAAAGTGTTTACCTATGAAAAATTCTGGAGAAGACAGGGATCGAACTCGGGGCGCCTGAGCAA : 320
  63.        ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  64. 223 : CAAAAGTGTTTACCTATGAAAAATTCTGGAGAAGACAGGGATCGAACTCGGGGCGCCTGAGCAA : 160

  65. 321 : GGGATAGCTGCGGGTTGAGAGCCACTACGGTAGAACAACCTTACTGACTATTAATAGTTAAAAG : 384
  66.        ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  67. 159 : GGGATAGCTGCGGGTTGAGAGCCACTACGGTAGAACAACCTTACTGACTATTAATAGTTAAAAG :  96

  68. 385 : CTCATATATCTAACTCAAAAAAATTGAATTCAAAATTTGGTTTTAAATTTCGTCCGAATTTTTT : 448
  69.        ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  70.   95 : CTCATATATCTAACTCAAAAAAATTGAATTCAAAATTTGGTTTTAAATTTCGTCCGAATTTTTT :  32

  71. 449 : TCGGTAATTCGTGGTTACCGAGAATCTCG : 477
  72.        |||||||||||||||||||||||||||||
  73.   31 : TCGGTAATTCGTGGTTACCGAGAATCTCG :   3
复制代码

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
2 [报告]
发表于 2015-10-11 12:15 |只看该作者
回复 1# mswsg


   
#!/usr/bin/perl

use strict;
use warnings;

use v5.14;

local $/ = '';

while (<>) {
  if (/^C4/) {
    # Second fields of line 3 and 4
    my @f = map { (split /\s*:\s*/)[1] } (split /\n/, $_)[2,3];
    say ">$f[0] $f[1]";
  }
  else {
    # Second field of line 3
    my $f = ( split /\s*:\s*/, (split /\n/)[2] )[1];
    say "$f";
  }
}
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP