Chinaunix

标题: 求助!!Perl编程实现比较2个文件,筛选出基因名称相同的序列,留下差异基因的序列 [打印本页]

作者: zjj1023    时间: 2015-09-18 13:20
标题: 求助!!Perl编程实现比较2个文件,筛选出基因名称相同的序列,留下差异基因的序列
求助!!Perl编程实现比较2个文件,筛选出基因名称相同的序列,留下基因名称不同的序列,输出到新的文件中。 sequence.rar (9.52 KB, 下载次数: 7)

序列格式类似:>gnl|UG|Dr#S15906148 Danio rerio myelocytomatosis oncogene a, mRNA (cDNA clone MGC:64149 IMAGE:6797033), complete cds /cds=p(212,143 /gb=BC053281 /gi=31419571 /ug=Dr.1 /len=1869
CTGAGAGCTGCACGAGCGCGCAGGGTTGTTTATATTTTCCATCACTTTCCTTTCCACTTG
ACCGTGACTCTGACGCCACTTATGCTGCAAGTGACCGGAGCAAAAACTGTTGGATTTTAC
TTCTCGCTCCTTCTTTTTTGCTCTCTTTTCATTGCATTGCGTCTCGAAAGAAACAATTCT
GGAACGGCATTCGTTAAACACAAGTGTCAAAATGCCGGTGAGTGCGAGTTTGGCGTGTAA
AAACTACGATTACGACTACGACTCCATCCAGCCCTACTTCTACTTCGACAACGACGATGA
GGATTTTTATCACCATCAGCAAGGACAGACTCAACCTTCAGCCCCCAGCGAGGACATTTG
GAAGAAATTCGAACTGCTGCCCACACCGCCCCTCTCGCCCAGCCGGAGACAGTCGCTCTC
CACCGCGGAACAGCTGGAGATGGTCAGCGAGTTCCTGGGAGACGACGTGGTCAGCCAGAG
CTTCATCTGCGATGATGCGGACTACTCCCAGTCCTTCATCAAGTCCATCATCATCCAGGA
CTGCATGTGGAGCGGCTTTTCCGCCGCTGCCAAGTTGGAGAAAGTGGTTTCAGAGAGACT
GGCGTCTTTGCACGCTGAAAGGAAGGAACTGATGTCTGACAGCAACTCAAATCGACTAAA
CGCGAGCTATTTGCAGGATCTGAGCACCTCTGCATCAGAATGCATCGATCCCTCTGTGGT
CTTCCCATATCCTCTGACAGAGTGTGGGAAAGCCGGCAAGGTTGCATCACCACAGCCCAT
GCTGGTCCTGGACACTCCACCTAACAGCTCCAGCAGCAGTGGCAGCGATTCAgaagatga
agaagaagaggatgaggaggaggaagaagaagaggaggaggaagaagaggaggaagagga

需要根据myelocytomatosis oncogene a,也就是Danio rerio(物种名称)后面和第一个逗号前面之间的字符串来比较两个文件。相同名称的序列输出到一个same.out文件中,不同名称的序列输出到一个diff.out文件中。

求解答!!!


作者: b114213903    时间: 2015-09-18 14:10
请楼主再核实一下示例文档!
序列名与给定格式不完全一致!
作者: zjj1023    时间: 2015-09-18 14:21
对,有些序列的名称是类似>gnl|UG|Dr#S12074342 fa03a10.s1 Zebrafish ICRFzfls Danio rerio cDNA clone 1J10 3', mRNA sequence /clone=1J10 /clone_end=3' /gb=AA495421 /gi=2225849 /ti=57033099 /ug=Dr.67 /len=301这种,命名规则不同所以格式也不一样,我的想法是在比较的时候去掉第一个空格前和第一个逗号后面的字符,再去除物种名称Zebrafish或 Danio rerio,剩下的字符串进行比较。








回复 2# b114213903


   
作者: zjj1023    时间: 2015-09-18 14:23
回复 2# b114213903


  因为这只是第一个步骤,先筛选出基因名称完全相同的序列,第二步还要在blast中比对序列相似度,所以第一步就按照大部分序列的命名规则来筛选就行了。
作者: zjj1023    时间: 2015-09-18 14:32
格式不一致的序列暂时忽略不计,将它们视作基因名称不一样的序列。
回复 2# b114213903


   




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2