免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 5990 | 回复: 13
打印 上一主题 下一主题

菜鸟求助~如何获取1条核苷酸翻译后最长的那条蛋白序列 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-08-13 11:19 |只看该作者 |倒序浏览
本帖最后由 cxrfly 于 2014-08-13 14:36 编辑

一条核苷酸序列,如U1,它对应的翻译氨基酸序列具有53条(U1_1  to U1_53);如另外一条U2,对应的氨基酸序列有18条(U2_1 to U2_'18')。类似这样的核苷酸序列有2万条,对应的氨基酸序列在一个文件里。现在我想提取每条核苷酸对应的可能氨基酸翻译中最长的那条氨基酸序列及其ID号(即类似U1或者U2各自对应的最长氨基酸序列),如何实现阿?

菜鸟,刚学Perl,还不太会写脚本阿。求好心大侠是否帮我写一个?急阿~

>U1_1 [3 - 104]
VLDLFVAHHYIRRQRARHKIGQISHFWVITQLRI
>U1_2 [1 - 111]
KYSIFSLRIIIFEDSELATKSVRSAIFGSSLSFGSKK
>U1_3 [2 - 118]
STRSFRCASLYSKTASSPQNRSDQPFLGHHSASDLKSEA
>U1_4 [125 - 193]
SRRSTFELGLHPPWRTWNFGHQV
>U1_5 [108 - 215]
KVRRDDLAGRHSSWDCTLPGGHGILVIRFDEHMALL
>U1_6 [115 - 222]
GVMISQVDIRVGTAPSLEDMEFWSSGLMSTWLCSKK
>U1_7 [200 - 232]
AHGFALRNKRH
>U1_8 [219 - 314]
EINATDALVSEHEWFDVRVPDNNCAVAFNVSM
>U1_9 [226 - 330]
TPLTRSFPNMNGSMYAFQTITVRWPSTCRCKICCT
>U1_10 [287 - 364]
LCGGLQRVDVKSAARRTWPLCSPSRQ
>U1_11 [368 - 403]
IPSQNFLRLRRL
>U1_12 [318 - 536]
NLLHVERGRCVRHHVSEFQAKTFCDYVACSGFRALASVFIPVYPPCIASRTHVERQDMVV
EHFHAHTIHGITQ
>U1_13 [407 - 559]
WLQSFGLCIYSSVSTMHRQSHACRTARYGGRTLPCAYHSWHHAVGASGSSR
>U1_14 [334 - 606]
NVAVVFAITSVNSKPKLSAITSLVVASELWPLYLFQCIHHASPVARMSNGKIWWSNTSMR
IPFMASRSRGFWVISLIGTGLLVSTTTSAIR
>U1_15 [581 - 673]
FQPRLQQSDRSSPRQSTVRRRSALPSASDTQ
>U1_16 [677 - 718]
ESRYAVYEYFLPDT
>U1_17 [540 - 731]
GLLGHLVNRNGAVSFNHDFSNPIGVLHASRQFVEDQRCHLLQTPSRNLDTPCTSIFSQIH
DIPL
>U1_18 [722 - 826]
YPVVTGVGTAIFSGLGQLASPFHNPSSNAYFPARP
>U1_19 [610 - 843]
EFSTPVDSSSKISAAICFRHPVGISIRRVRVFSPRYMISRCDGCRYSNFLRPWTTCISLS
QPFFKCIFSRSALSRCSS
>U1_20 [735 - 872]
RVSVQQFSQALDNLHLPFTTLLQMHIFPLGPESLFQLTNTHLLPHH
>U1_21 [847 - 894]
RIHTSFHTTDIPLDIV
>U1_22 [830 - 940]
VVVPADEYTPPSTPLTYRWTLYDTIGLSYVVASSCLG
>U1_23 [944 - 976]
FATASTSSRAL
>U1_24 [898 - 1038]
HDRSFLRRGFFLPRMICNCFNFISSSLTSSRNSISWKRRSFLALFGS
>U1_25 [980 - 1042]
LRPATRSVGSDVHFLPCSDRS
>U1_26 [1084 - 1152]
VSVFVTSGAFTHWNGVTGSSSVP
>U1_27 [876 - 1193]
HTAGHCMTRSVFLTSWLLLASDDLQLLQLHLELFDFVPQLDQLEATFISCLVRIVVEFLL
LELRLCRLMSQRIRHIWCIYPLEWGYRQQFRAIVSDIVVHCAQKHL
>U1_28 [1156 - 1194]
SPISSSIALRSTS
>U1_29 [1061 - 1195]
VEVVQTHESAYSSHLVHLPTGMGLQAAVPCHSLRYRRPLRSEAPP
>U1_30 [1180 - 1133] (REVERSE SENSE)
AQWTTISETMARNCCL
>U1_31 [1194 - 1081] (REVERSE SENSE)
GGASERNGRRYRRLWHGTAACNPIPVGKCTRCDEYADS
>U1_32 [1077 - 1018] (REVERSE SENSE)
VCTTSTQEEETQLRSEQGKK
>U1_33 [1084 - 1001] (REVERSE SENSE)
LMSLHNLNSRRRNSTTIRTRQEMNVASN
>U1_34 [997 - 965] (REVERSE SENSE)
SSCGTKSKSSR
>U1_35 [1014 - 916] (REVERSE SENSE)
TSLPTDRVAGRSQRARDEVEAVANHPRQEEATT
>U1_36 [955 - 803] (REVERSE SENSE)
SSCKSSEARRSHDVRKTDRVIQCPAVCQWCGRRCVFVSWNNDSGPSGKICI
>U1_37 [912 - 790] (REVERSE SENSE)
ERPIVSYNVQRYVSGVEGGVYSSAGTTTQGRAGKYAFEEGL
>U1_38 [799 - 761] (REVERSE SENSE)
RRVVKGRCKLSKA
>U1_39 [757 - 665] (REVERSE SENSE)
ENCCTDTRHNGISCIWEKILVHGVSRFLLGV
>U1_40 [786 - 598] (REVERSE SENSE)
KGDASCPRPEKIAVPTPVTTGYHVSGRKYSYTAYRDSYWVSEADGSADLRRTVDWRGELL
SDC
>U1_41 [643 - 554] (REVERSE SENSE)
SSTNCRLAWRTPIGLLKSWLKLTAPFRLTR
>U1_42 [528 - 436] (REVERSE SENSE)
CHEWYAHGSVRPPYLAVRHACDWRCMVDTLE
>U1_43 [520 - 395] (REVERSE SENSE)
MVCAWKCSTTISCRSTCVRLAMHGGYTGINTEAKALKPLQAT
>U1_44 [411 - 364] (REVERSE SENSE)
SHYKRRNRRKFWLGIH
>U1_45 [391 - 359] (REVERSE SENSE)
SQKVLAWNSLT
>U1_46 [360 - 304] (REVERSE SENSE)
RDGEHNGHVLRAADFTSTR
>U1_47 [355 - 218] (REVERSE SENSE)
WRTQRPRSTCSRFYIDTLKATAQLLSGTRTSNHSCSETSASVAFIS
>U1_48 [300 - 190] (REVERSE SENSE)
RPPHSYCLERVHRTIHVRKRARQWRLFLRAKPCAHQT
>U1_49 [214 - 107] (REVERSE SENSE)
SKAMCSSNLMTKIPCPPGRVQSQLECRPARSSRLTF
>U1_50 [183 - 91] (REVERSE SENSE)
PKFHVLQGGCSPNSNVDLRDHHASLFRSEAE
>U1_51 [64 - 32] (REVERSE SENSE)
PILWRARCLRI
>U1_52 [1193 - 3] (REVERSE SENSE)
EVLLSAMDDDIGDYGTELLPVTPFQWVNAPDVTNTLTHESAQPQLKKKKLNYDPNKARNE
RRFQLIELRDEVKELEMKLKQLQIIRGKKKPRRKKDRSCHTMSSGMSVVWKEVCIRQLEQ
RLRAERENMHLKKGCEREMQVVQGLRKLLYRHPSQRDIMYLGENTRTRRIEIPTGCLKQM
AALIFDELSTGVENSYRIAEVVVETNSPVPINEMTQKPLLRDAMNGMRMEVFDHHILPFD
MRATGDAWWIHWNKYRGQSSEATTSDVIAESFGLEFTDVMANTTATFYVQQILHRHVEGH
RTVIVWNAYIEPFMFGNERVSGVYFLEQSHVLIKPDDQNSMSSREGAVPTRMSTCEIITP
HFLDPKLSDDPKMADLTDFVASSLSSNIMMRNEKIEY
>U1_53 [69 - 1] (REVERSE SENSE)
SDRFCGELAVFEYNDAQRKDRVL
>U2_1 [2 - 52]
FTEPTSIDELLASRFPQ
>U2_2 [3 - 56]
LQSQLLSMSSSHHVSLNK
>U2_3 [56 - 154]
ISTSAGSMYFRAKCSPFRVGCAKATRFLFTCMP
>U2_4 [28 - 159]
APRITFPSINKHLGWFHVFSRKVQPISCRLREGNEVLVHMHAVN
>U2_5 [163 - 213]
LFAHDGHHSGRNAFPAE
>U2_6 [60 - 245]
APRLVPCIFAQSAAHFVSAARRQRGSCSHACRKLTFRARRPPFGSQCFSCGMRGAPKSGR
CQ
>U2_7 [217 - 258]
GVHPNLADANNGGF
>U2_8 [249 - 356]
RRVLNRQTQSQHHSQLRRSPRPSSTAQSSSKWSCPE
>U2_9 [158 - 400]
IDFSRTTATIRVAMLFLRNEGCTQIWQMPITAGFESADAVTAPFAATEVSASEFDCTIQF
EVVLSRVKASVMRSVLTHPTT
>U2_10 [262 - 441]
IGRRSHSTIRSYGGLRVRVRLHNPVRSGLVQSKGFRDALRIDTSNDLMVLNVDKVAALQK
>U2_11 [387 - 443]
HIQRLDGPECRQSGCAAET
>U2_12 [443 - 297] (REVERSE SENSE)
RFCSAATLSTFRTIKSLDVSIRSASRKPLLWTRPLRTGLCSRTRTRRPP
>U2_13 [275 - 144] (REVERSE SENSE)
LRLPIQNPPLLASARFGCTPHSAGKALRPEWWPSCAKSQFTACM
>U2_14 [441 - 52] (REVERSE SENSE)
FLQRSHFVYIQDHQVVGCVNTERITEAFTLDKTTSNWIVQSNSDAETSVAANGAVTASAD
SKPAVIGICQIWVHPSFRRKSIATRMVAVVREKSIYGMHVNKNLVAFAQPTRNGLHFARK
YMEPAEVLIY
>U2_15 [442 - 41] (REVERSE SENSE)
VSAAQPLCLHSGPSSRWMCQYGAHHGSLYSGQDHFELDCAVELGRGDLRSCEWCCDCVCR
FKTRRYWHLPDLGAPLIPQEKHCDPNGGRRARKVNLRHACEQEPRCLRAADTKWAALCAK
IHGTSRGAYLLRET
>U2_16 [140 - 21] (REVERSE SENSE)
TRTSLPSRSRHEMGCTLRENTWNQPRCLFIEGNVMRGAHR
>U2_17 [37 - 2] (REVERSE SENSE)
CEELIDRSWLCK
>U2_18 [48 - 1] (REVERSE SENSE)
GKRDARSSSIEVGSVN


论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
2 [报告]
发表于 2014-08-13 11:49 |只看该作者
不懂生物,看不懂

论坛徽章:
0
3 [报告]
发表于 2014-08-13 12:29 |只看该作者
回复 2# yestreenstars


    会写脚本就可以了,大侠留步

论坛徽章:
7
巳蛇
日期:2013-11-28 09:22:59天秤座
日期:2014-10-25 15:40:452015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:53:172015亚冠之德黑兰石油
日期:2015-07-15 08:46:452015亚冠之平阳省
日期:2015-11-08 16:27:53白银圣斗士
日期:2015-11-14 09:58:12
4 [报告]
发表于 2014-08-13 13:10 |只看该作者
你这些是一个序列相关的在一个文件里,还是全部都在一起?

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
5 [报告]
发表于 2014-08-13 13:38 |只看该作者
回复 3# cxrfly

看不懂你的需求
   

论坛徽章:
0
6 [报告]
发表于 2014-08-13 14:01 |只看该作者
本帖最后由 iamlimeng 于 2014-08-14 08:40 编辑

今后请楼主自己先写代码再来问,不要总是伸手,那样永远不会有提高!

论坛徽章:
0
7 [报告]
发表于 2014-08-13 14:30 |只看该作者
回复 4# b114213903


    所有2万多个核苷酸序列对应的所有氨基酸翻译都在一个文件(即一个氨基酸序列文件),想从这个文件里取出每个核苷酸对应的最长的氨基酸序列。

论坛徽章:
0
8 [报告]
发表于 2014-08-13 14:30 |只看该作者
回复 6# iamlimeng


    大侠,我错了,回头努力提高自己。这次比较急切

论坛徽章:
7
巳蛇
日期:2013-11-28 09:22:59天秤座
日期:2014-10-25 15:40:452015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:53:172015亚冠之德黑兰石油
日期:2015-07-15 08:46:452015亚冠之平阳省
日期:2015-11-08 16:27:53白银圣斗士
日期:2015-11-14 09:58:12
9 [报告]
发表于 2014-08-13 15:26 |只看该作者
  1. #!/usr/bin/perl
  2. use Bio::SeqIO;
  3. use strict;

  4. my $file=shift @ARGV or die "Usage:\t$0\tseq_file\n";
  5. my $SeqIO=Bio::SeqIO->new(-file=>"$file",-format=>"fasta") or die "Open seq_file failed!\n";
  6. my ($flag,$length,%ids,@out)=();
  7. while(my $seq=$SeqIO->next_seq()){
  8.         (my $id= $seq->id)=~s/\_[\s\S]+$//;
  9.         my $tag=$seq->id;
  10.         my $len=$seq->length;
  11.         if(! $ids{$id}){
  12.                 $ids{$id}++;
  13.                 if($length and $flag){
  14.                         my $pos=$flag."\t".$length;
  15.                         push @out,$pos;
  16.                 }
  17.                 $length=$len;
  18.                 $flag=$tag;
  19.         }else{
  20.                 if($length<$len){
  21.                         $length=$len;
  22.                         $flag=$tag;
  23.                 }
  24.         }
  25. }
  26. my $pos=$flag."\t".$length;
  27. push @out,$pos;

  28. while(my $pos=shift @out){
  29.         print $pos,"\n";
  30. }
复制代码

论坛徽章:
0
10 [报告]
发表于 2014-08-13 17:04 |只看该作者
回复 9# b114213903


    能否一起把对应的氨基酸序列和ID一起生成一个文件阿?谢谢
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP