免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4920 | 回复: 15
打印 上一主题 下一主题

perl 重命名ID的代码 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-07-30 15:45 |只看该作者 |倒序浏览
我有n条fasta格式的序列,现在想对序列的ID名称改变为从1开始 的数字,即seq1 , seq2.....seqn,希望大神帮忙用perl写个代码

我文件格式,ID如下如下:
>AT3G56040.1|PACid:19662817
MANPQASPILHHPQNHLSLFHFRTTTSPRSFSSLHFRKPLLFLSSSSSFSSKLQQSEQQCNNHQVRHVSTVPVEYSTPTPPESDDFLSEIDRLKSLLSKLDVSKDLRRKDAVIDADSRVRRFFSENRGGLSKVFGYLGLNSNEMFLVKCVIAAGQEHALCMNYEEAFGEEEEEYTVRSSVKNALYALVEMIERFDVNSSGYKGRREMGTVLDSEEIAHFRKFLTFLEEIEQFYDCIGGIIGYQVMVLELLHQSSKRRNTNRSQLVEESLGCQYLEMHTPSVLDLTQEEDYASQAALWGIEGLPDLGEIYPLGGAADRLGLIDSETGECLPAAMLAHCGRTLLEGLIRDLQAREFLYFKLYGKQCVTPVAIMTSAAKNNHEHVSSLCERLKWFGRGQSNFRLFEQPLVPAVSAEDGQWIVSKPFVPVSKPGGHGVIWKLAYDKGVFNWFYDHGRKGATVRQVSNVVAATDVTLLALAGIGLRYNKKLGFASCKRNAGATEGINVLMEKKNFDGKWEYGISCIEYTEFDKFDISNRSPSSNGLQADFPANTNILYVDLHSAELIGSSSNAKSLPNMVLNTKKRIEYLDQYGDYHSVMGGRLECTMQNIADNFFNKFPSRCHGSLEDKLDTYIVYNERRKVTSSAKKKKPHASAALHQTPDGALLDILRNGYDLLTECDIKLPMIEANDKYVDSPPPYLILLHPALGPLWEVSRQKFKGGSISSCSELQLEIAEFSWNNVQVDGSLIVTAENAMGSTTPNDNGEPILQYGLRCGKCKLHNVNVVNRGIDWNSKSNVYWRNDVNRLETCKIILHGNAEFEASNVTIEGHHVFEVPDGHKLKITSGNAGLSINLEALKEEVMETGSWYWNYQLNGSHIHLQQVEVSQS*
>AT3G03250.1|PACid:19663528
MAATTENLPQLKSAVDGLTEMSESEKSGFISLVSRYLSGEAQHIEWSKIQTPTDEIVVPYEKMTPVSQDVAETKNLLDKLVVLKLNGGLGTTMGCTGPKSVIEVRDGLTFLDLIVIQIENLNNKYGCKVPLVLMNSFNTHDDTHKIVEKYTNSNVDIHTFNQSKYPRVVADEFVPWPSKGKTDKEGWYPPGHGDVFPALMNSGKLDTFLSQGKEYVFVANSDNLGAIVDLTILKHLIQNKNEYCMEVTPKTLADVKGGTLISYEGKVQLLEIAQVPDEHVNEFKSIEKFKIFNTNNLWVNLKAIKKLVEADALKMEIIPNPKEVDGVKVLQLETAAGAAIRFFDNAIGVNVPRSRFLPVKASSDLLLVQSDLYTLVDGFVTRNKA

论坛徽章:
0
2 [报告]
发表于 2015-07-30 16:24 |只看该作者
是我说得不够清楚吗?没人回复,,,

论坛徽章:
0
3 [报告]
发表于 2015-07-30 16:28 |只看该作者
回复 2# 一串儿葡萄皮

是将 含有 ">" 的行 修改成 seq1 , seq2, ... seqn 么
不懂fasta 格式啊


   

论坛徽章:
0
4 [报告]
发表于 2015-07-30 16:39 |只看该作者
回复 3# climby

嗯嗯,是的。> 开头的表示ID名称,下一行是序列
   

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
5 [报告]
发表于 2015-07-30 16:43 |只看该作者
回复 1# 一串儿葡萄皮


    try this:

  1. perl -nE '$n = ($.+1)/2; /^>/ ? print "$n\n" : print' data.txt
复制代码

评分

参与人数 1信誉积分 +5 收起 理由
54red + 5 膜拜!

查看全部评分

论坛徽章:
0
6 [报告]
发表于 2015-07-30 16:48 |只看该作者
  1. #!/usr/bin/perl

  2. use strict;
  3. use warnings;

  4. my $i = 1;
  5. while (my $line =<DATA>){
  6.    if($line =~/^>/){
  7.        print ">seq$i\n";
  8.        $i++;
  9.    }   
  10.    else{
  11.       print $line ;
  12.    }   

  13. }


  14. __DATA__
  15. >AT3G56040.1|PACid:19662817
  16. MANPQASPILHHPQNHLSLFHFRTTTSPRSFSSLHFRKPLLFLSSSSSFSSKLQQSEQQCNNHQVRHVSTVPVEYSTPTPPESDDFLSEIDRLKSLLSKLDVSKDLRRKDAVIDADSRVRRFFSENRGGLSKVFGYLGLNSNEMFLVKCVIAAGQEHALCMNYEEAFGEEEEEYTVRSSVKNALYALVEMIERFDVNSSGYKGRREMGTVLDSEEIAHFRKFLTFLEEIEQFYDCIGGIIGYQVMVLELLHQSSKRRNTNRSQLVEESLGCQYLEMHTPSVLDLTQEEDYASQAALWGIEGLPDLGEIYPLGGAADRLGLIDSETGECLPAAMLAHCGRTLLEGLIRDLQAREFLYFKLYGKQCVTPVAIMTSAAKNNHEHVSSLCERLKWFGRGQSNFRLFEQPLVPAVSAEDGQWIVSKPFVPVSKPGGHGVIWKLAYDKGVFNWFYDHGRKGATVRQVSNVVAATDVTLLALAGIGLRYNKKLGFASCKRNAGATEGINVLMEKKNFDGKWEYGISCIEYTEFDKFDISNRSPSSNGLQADFPANTNILYVDLHSAELIGSSSNAKSLPNMVLNTKKRIEYLDQYGDYHSVMGGRLECTMQNIADNFFNKFPSRCHGSLEDKLDTYIVYNERRKVTSSAKKKKPHASAALHQTPDGALLDILRNGYDLLTECDIKLPMIEANDKYVDSPPPYLILLHPALGPLWEVSRQKFKGGSISSCSELQLEIAEFSWNNVQVDGSLIVTAENAMGSTTPNDNGEPILQYGLRCGKCKLHNVNVVNRGIDWNSKSNVYWRNDVNRLETCKIILHGNAEFEASNVTIEGHHVFEVPDGHKLKITSGNAGLSINLEALKEEVMETGSWYWNYQLNGSHIHLQQVEVSQS*
  17. >AT3G03250.1|PACid:19663528
  18. MAATTENLPQLKSAVDGLTEMSESEKSGFISLVSRYLSGEAQHIEWSKIQTPTDEIVVPYEKMTPVSQDVAETKNLLDKLVVLKLNGGLGTTMGCTGPKSVIEVRDGLTFLDLIVIQIENLNNKYGCKVPLVLMNSFNTHDDTHKIVEKYTNSNVDIHTFNQSKYPRVVADEFVPWPSKGKTDKEGWYPPGHGDVFPALMNSGKLDTFLSQGKEYVFVANSDNLGAIVDLTILKHLIQNKNEYCMEVTPKTLADVKGGTLISYEGKVQLLEIAQVPDEHVNEFKSIEKFKIFNTNNLWVNLKAIKKLVEADALKMEIIPNPKEVDGVKVLQLETAAGAAIRFFDNAIGVNVPRSRFLPVKASSDLLLVQSDLYTLVDGFVTRNKA
  19. ~                        
复制代码

论坛徽章:
0
7 [报告]
发表于 2015-07-30 17:03 |只看该作者
回复 6# climby

改好了,真的非常非常感谢你
   

论坛徽章:
0
8 [报告]
发表于 2015-07-30 17:06 |只看该作者
回复 5# MMMIX


   thank you. should I say this in English? The problem is resuled.Thank you very much.

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
9 [报告]
发表于 2015-07-30 17:23 |只看该作者
回复 8# 一串儿葡萄皮


    挑你方便的,能表达清楚意思就行了。

论坛徽章:
7
巳蛇
日期:2013-11-28 09:22:59天秤座
日期:2014-10-25 15:40:452015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:53:172015亚冠之德黑兰石油
日期:2015-07-15 08:46:452015亚冠之平阳省
日期:2015-11-08 16:27:53白银圣斗士
日期:2015-11-14 09:58:12
10 [报告]
发表于 2015-07-30 18:34 |只看该作者
  1. #!/usr/bin/perl
  2. use strict;
  3. use Bio::SeqIO;

  4. my $fasta=shift @ARGV;
  5. (my $Out=$fasta)=~s/(\.[^\.]+)$/_out$1/;

  6. my $IN=Bio::SeqIO->new(-file=>"$fasta",-format=>'fasta');
  7. my $OUT=Bio::SeqIO->new(-file=>">$Out",-format=>'fasta');
  8. my $n=0;
  9. while(my $Seq=$IN->next_seq){
  10.         $n++;
  11.         print "Now $n:\t",$Seq->id,"\n";
  12.         $Seq->id($n);
  13.         $OUT->write_seq($Seq);
  14. }
  15. $IN->close();
  16. $OUT->close();
复制代码

评分

参与人数 1可用积分 +10 收起 理由
MMMIX + 10 专业!

查看全部评分

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP