忘记密码   免费注册 查看新帖 |

ChinaUnix.net

  平台 论坛 博客 文库 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
查看: 2193 | 回复: 1

求助大牛,关于去除排列好数据中不同剪切的序列 [复制链接]

论坛徽章:
1
操作系统版块每日发帖之星
日期:2015-10-08 06:20:00
发表于 2018-01-17 20:38 |显示全部楼层

有如下排列好的序列,其中,Aco中有一些序列是同一个基因的不同转录本,格式如下:
>Abi|c36478_g1_i1_m.109294
RSLRLRSGMGMPVGSTPPPDKPLHIQHELIWDDGSAYPEPALDRIAPQIGKYEALAWLCGGLSFFGLVGLLAVWNDKASKIPYTPKEYPFDNLRVELGGDP
>Aco|Aquca_013_00716.1
RSLRLRSGMGLPVGKHYVPNKPLAVNDELTWDNGSAYPEPCIDRIAETVGKYEALAWLCGGLSFFATLGTLAVLNDKASKIPFQNRQYMLDELLSTISNNG
>Aco|Aquca_013_00716.2
RSLRLRSGMGLPVGKHYVPNKPLAVNDELTWDNGSAYPEPCIDRIAETVGKYEALAWLCGGLSFFATLGTLAVLNDKASKIPFVPFCFSVQHLTVDISN--
>Aco|Aquca_013_00716.3
RSLRLRSGMGLPVGKHYVPNKPLAVNDELTWDNGSAYPEPCIDRIAETVGKYEALAWLCGGLSFFATLGTLAVLNDKASKIPFTPKVYPYDNLRVELGGDP
>Ame|c46614_g2_i1_m.41921
RSLRTRSGMGLPVGTLPPPDKPLPVQDELIWDDGSAYPEPVLDRVGPMVGKYEALGWLCGGLSFFGLVGLLAVWNDKASKIPFTPREYPFDNLRVELGGDP
>Ara|c68528_g1_i1_m.138063
RSLRTRSGMGLSVGTLNPPEKPIPIQDELIWDDGSAYPEPCLDRVGPMVGKYEALAWVCGGLSFFGLVGLLAVWNDKASKIPYTPREYPYDNLRVELGGDP
>Atr|evm_27.model.AmTr_v1.0_scaffold00124.24
RSLRHRSGMGLPVGKHIVPDKPLPVNDELIWDNGTAYPEPCLDKLATTVGEYEALAWLCGGLGFFASLGLLAVWNDKASKIPFTPKVYPYDNLRVELGGEP
>Cep|c9368_g1_i1_m.129149
RSLRTRSGMGLPVGTLPPPDKPLPVQDELIWDDGSAFPEPVLDRVGPMVGKYEALAWLCGGLSFFGLVGLLAVWNDKASKIPFTPREYPFDNLRVELGGDP


目的是想去除与其它序列如Ame, Ara等排列不好的数据,只留下排列相似度最高的一条,如以下就是去除第一条和第二条,获得以下结果:
>Abi|c36478_g1_i1_m.109294
RSLRLRSGMGMPVGSTPPPDKPLHIQHELIWDDGSAYPEPALDRIAPQIGKYEALAWLCGGLSFFGLVGLLAVWNDKASKIPYTPKEYPFDNLRVELGGDP
>Aco|Aquca_013_00716.3
RSLRLRSGMGLPVGKHYVPNKPLAVNDELTWDNGSAYPEPCIDRIAETVGKYEALAWLCGGLSFFATLGTLAVLNDKASKIPFTPKVYPYDNLRVELGGDP
>Ame|c46614_g2_i1_m.41921
RSLRTRSGMGLPVGTLPPPDKPLPVQDELIWDDGSAYPEPVLDRVGPMVGKYEALGWLCGGLSFFGLVGLLAVWNDKASKIPFTPREYPFDNLRVELGGDP
>Ara|c68528_g1_i1_m.138063
RSLRTRSGMGLSVGTLNPPEKPIPIQDELIWDDGSAYPEPCLDRVGPMVGKYEALAWVCGGLSFFGLVGLLAVWNDKASKIPYTPREYPYDNLRVELGGDP
>Atr|evm_27.model.AmTr_v1.0_scaffold00124.24
RSLRHRSGMGLPVGKHIVPDKPLPVNDELIWDNGTAYPEPCLDKLATTVGEYEALAWLCGGLGFFASLGLLAVWNDKASKIPFTPKVYPYDNLRVELGGEP
>Cep|c9368_g1_i1_m.129149
RSLRTRSGMGLPVGTLPPPDKPLPVQDELIWDDGSAFPEPVLDRVGPMVGKYEALAWLCGGLSFFGLVGLLAVWNDKASKIPFTPREYPFDNLRVELGGDP

请大牛们寒冬腊月,给点温暖,帮忙解决一下哟。。。非常感谢!!!
打赏鼓励一下!

论坛徽章:
0
发表于 2018-01-29 13:45 |显示全部楼层
只留下排列相似度最高的一条
1、以哪一条序列做基准?
2、如何评价相似度?
您需要登录后才可以回帖 登录 | 注册

本版积分规则

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802020122
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:wangnan@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP