免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2718 | 回复: 4
打印 上一主题 下一主题

求助!!Perl编程实现比较2个文件,筛选出基因名称相同的序列,留下差异基因的序列 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-09-18 13:20 |只看该作者 |倒序浏览
求助!!Perl编程实现比较2个文件,筛选出基因名称相同的序列,留下基因名称不同的序列,输出到新的文件中。 sequence.rar (9.52 KB, 下载次数: 7)

序列格式类似:>gnl|UG|Dr#S15906148 Danio rerio myelocytomatosis oncogene a, mRNA (cDNA clone MGC:64149 IMAGE:6797033), complete cds /cds=p(212,143 /gb=BC053281 /gi=31419571 /ug=Dr.1 /len=1869
CTGAGAGCTGCACGAGCGCGCAGGGTTGTTTATATTTTCCATCACTTTCCTTTCCACTTG
ACCGTGACTCTGACGCCACTTATGCTGCAAGTGACCGGAGCAAAAACTGTTGGATTTTAC
TTCTCGCTCCTTCTTTTTTGCTCTCTTTTCATTGCATTGCGTCTCGAAAGAAACAATTCT
GGAACGGCATTCGTTAAACACAAGTGTCAAAATGCCGGTGAGTGCGAGTTTGGCGTGTAA
AAACTACGATTACGACTACGACTCCATCCAGCCCTACTTCTACTTCGACAACGACGATGA
GGATTTTTATCACCATCAGCAAGGACAGACTCAACCTTCAGCCCCCAGCGAGGACATTTG
GAAGAAATTCGAACTGCTGCCCACACCGCCCCTCTCGCCCAGCCGGAGACAGTCGCTCTC
CACCGCGGAACAGCTGGAGATGGTCAGCGAGTTCCTGGGAGACGACGTGGTCAGCCAGAG
CTTCATCTGCGATGATGCGGACTACTCCCAGTCCTTCATCAAGTCCATCATCATCCAGGA
CTGCATGTGGAGCGGCTTTTCCGCCGCTGCCAAGTTGGAGAAAGTGGTTTCAGAGAGACT
GGCGTCTTTGCACGCTGAAAGGAAGGAACTGATGTCTGACAGCAACTCAAATCGACTAAA
CGCGAGCTATTTGCAGGATCTGAGCACCTCTGCATCAGAATGCATCGATCCCTCTGTGGT
CTTCCCATATCCTCTGACAGAGTGTGGGAAAGCCGGCAAGGTTGCATCACCACAGCCCAT
GCTGGTCCTGGACACTCCACCTAACAGCTCCAGCAGCAGTGGCAGCGATTCAgaagatga
agaagaagaggatgaggaggaggaagaagaagaggaggaggaagaagaggaggaagagga

需要根据myelocytomatosis oncogene a,也就是Danio rerio(物种名称)后面和第一个逗号前面之间的字符串来比较两个文件。相同名称的序列输出到一个same.out文件中,不同名称的序列输出到一个diff.out文件中。

求解答!!!

论坛徽章:
7
巳蛇
日期:2013-11-28 09:22:59天秤座
日期:2014-10-25 15:40:452015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:53:172015亚冠之德黑兰石油
日期:2015-07-15 08:46:452015亚冠之平阳省
日期:2015-11-08 16:27:53白银圣斗士
日期:2015-11-14 09:58:12
2 [报告]
发表于 2015-09-18 14:10 |只看该作者
请楼主再核实一下示例文档!
序列名与给定格式不完全一致!

论坛徽章:
0
3 [报告]
发表于 2015-09-18 14:21 |只看该作者
对,有些序列的名称是类似>gnl|UG|Dr#S12074342 fa03a10.s1 Zebrafish ICRFzfls Danio rerio cDNA clone 1J10 3', mRNA sequence /clone=1J10 /clone_end=3' /gb=AA495421 /gi=2225849 /ti=57033099 /ug=Dr.67 /len=301这种,命名规则不同所以格式也不一样,我的想法是在比较的时候去掉第一个空格前和第一个逗号后面的字符,再去除物种名称Zebrafish或 Danio rerio,剩下的字符串进行比较。








回复 2# b114213903


   

论坛徽章:
0
4 [报告]
发表于 2015-09-18 14:23 |只看该作者
回复 2# b114213903


  因为这只是第一个步骤,先筛选出基因名称完全相同的序列,第二步还要在blast中比对序列相似度,所以第一步就按照大部分序列的命名规则来筛选就行了。

论坛徽章:
0
5 [报告]
发表于 2015-09-18 14:32 |只看该作者
格式不一致的序列暂时忽略不计,将它们视作基因名称不一样的序列。
回复 2# b114213903


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP