免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4182 | 回复: 4
打印 上一主题 下一主题

求助:合并外显子的脚本 [复制链接]

论坛徽章:
1
2015年亚冠纪念徽章
日期:2015-10-02 15:18:14
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-10-02 11:27 |只看该作者 |倒序浏览
本帖最后由 让阿阿 于 2015-10-02 11:55 编辑

文件1,是这样的基因组序列
>1A dna:chromosome chromosome:IWGSC1.0+popseq:1A:1:248437066:1
TCTTTTCGACGATGTGGTGCACAGATACACTTGACAGCCATAAGAAAAAGAAACTAGATG
CGGCTAAACCAAGTGACCGGTTTGAACATTGGAAAAAAAAACTAGATGCGGCTAAACCAA
GTGACCGGTTCGGACATTTGGAAAAAATGCCAAGAGGAATTTGATGGCAGGGAGTTAGCT
GGCACATCGCTCTCAAAAGAATTACTGGGGTAAAAACTGGCAAAACTTTTGCTAAATGGG
GTAATATGGATGAAAATTTATTAAATGGGGTAATTAGTGTCAAAAATGTTAAAATAAGGG
GTAAAAACTGAAATTCACTCTTTTTTAGGGGAATTCCTTACCATCGCGTGCACGATAGAG
GTTTTGTTGATCAGCCCTCCTATTCGGCGTCCTCAGCGCCGCTTGTGACATGGGAATGGA
ACTAGGAGGCCAACGTCCATGGCCTTCCCGCAGTAACCACTCCACCGCAACCAACTTGAT
GTGTTTGTATCCAAAAATTAGAGCCATTAGACCCGTGTTCCATTCCTAGTATGAATTATT
TTTAAAAAGCAAATGTAAACTTAAAAAGAATTTGTGAATTTTTAAAAGTTAATTTATTTA
AAAAACGAAATCATGAAATTAAAAGAGTTCCACCTGATTGTATTTGAAAAAAGTTCATCA
ATTTTCATAAAAAAAGTTCACGAATTTGAACAAAGTTCACCGAATTTTGTAAAAAGGTCA
TAAAAGTTCATGGATTCTGGTAAAAAAAAGTTCACTAATTTAAAGAAGTTCACCGGATTC
TGAAAAAAAAACATGGATTTAAAAACTGTTCGTCCATTTTCATAAAAAAGTTCACGAATT
TGAACAAAGTTCACTGAATTTTGAAAAAACGTCATGGATTTGAAAAGAGATCATCGATGT
TGATAAAAAAAGTTTAGTAAGTTAAAGAACATTCACCGAATTTTGGAAAGACGTCACCAA
TTTTGGAATAAAAATGTTCACAGAATTTTTTAGAAAAGTTCATCGATTCTGCTAAATAAG
TGCATGAATTTTGAAGAAGAAAAAGACACAAAAAATAGGAAGAATAAAATAAAGAAAGAC
TAAAATAAAAAATATGATATACAGAATCACGTCAAGTTAGTTCTCTAATTGGCTAGTGGA
GCTAAGAATGAATTAGAGGTCGCGGGATAGAATCTGGAATCACACAGGATCGTCTTTTTG
CAGTTTAAAATCAGGAAAAACTAGGTAAACGGGCCGGCGTACAGCGTAGGGGCAGGGGGG
GTGGTTGCCCGTTTGCGCCGATGCCTTTATCCGGTGCAGCGGGCGCCAAATCAAGGCAAT
TTGAAAAGGGAGCAACTAGTTAACGAGTGCTCCTCGGGAGCCTCGTAACGATCAGCGCCA
CTTGGCGCGCTCTCAGCCATTCGCCATGTGTCGCGCTCTGGACGTTTCCTCCGAATTTTT
TTTATTATTTTTCCACACGCGTTTTCGGCTTTTTAAACCCTTTTTTTGGGTTTTTCGACG
TTTTGGTTTTCCGCCGGTCTTTCTTAGCTTTCCGAGCAAAAAAAATTGGAAAAAAAAAAT
TCGCGAAAAAAACACGTTTTCTTTTTTTTTTCTTTCACGAAAGTCACGATTTTTTTTCCG
CGAGAGGCACAGTTGTGCTTTAGCGAGAGTGACGACCGTGCCTTTCGGAAGCGAAAAAAC
GCATTTTCTGTTCTTTTTTTCTTTCGCGAGTTTCACGGTTTTGCTTCCGCGAGAGGCACG
GTTGTGCTTTCGCAAGAGTCACGGACGTGCCTCTCAGAATGGAAAAAAAAACACGTTTTT
TTTCTTTCGTGAGAGTCACGGTTTTGCTTCCGCGAGAGGCATTTTTGCTTCCGCAAGAGT
CACGGCCGTGCCTCTCAGAAAGGAAAAGAACGCGTTTCTGTTTTTTTTGTCTAGCGAGGG
TCACGGTTTTGCTTCCGTGAGAGGCATGGTTGTGCTTTCGCGAGAGTCACGGCCGTGCCT
文件二是这样的文件
1A      Cufflinks       exon    103892  103972  .       +       .       gene_id "XLOC_000001"; transcript_id "TCONS_00000001"; exon_number "1
"; oId "CUFF.2.1"; tss_id "TSS1";
1A      Cufflinks       exon    187910  187999  .       +       .       gene_id "XLOC_000002"; transcript_id "TCONS_00000002"; exon_number "1
"; oId "CUFF.6.1"; tss_id "TSS2";
1A      Cufflinks       exon    188144  188273  .       +       .       gene_id "XLOC_000002"; transcript_id "TCONS_00000002"; exon_number "2
"; oId "CUFF.6.1"; tss_id "TSS2";
1A      Cufflinks       exon    198368  198544  .       +       .       gene_id "XLOC_000003"; transcript_id "TCONS_00000003"; exon_number "1
"; oId "CUFF.1.1"; tss_id "TSS3";
1A      Cufflinks       exon    1129385 1129492 .       +       .       gene_id "XLOC_000004"; transcript_id "TCONS_00000004"; exon_number "1
"; oId "CUFF.7.1"; tss_id "TSS4";
1A      Cufflinks       exon    1525818 1525917 .       +       .       gene_id "XLOC_000005"; transcript_id "TCONS_00000005"; exon_number "1
"; oId "CUFF.9.1"; tss_id "TSS5";
1A      Cufflinks       exon    1976125 1976222 .       +       .       gene_id "XLOC_000006"; transcript_id "TCONS_00000006"; exon_number "1
"; oId "CUFF.12.1"; tss_id "TSS6";
1A      Cufflinks       exon    1976303 1976589 .       +       .       gene_id "XLOC_000006"; transcript_id "TCONS_00000006"; exon_number "2
"; oId "CUFF.12.1"; tss_id "TSS6";
1A      Cufflinks       exon    2935683 2935826 .       +       .       gene_id "XLOC_000007"; transcript_id "TCONS_00000007"; exon_number "1
"; oId "CUFF.15.1"; tss_id "TSS7";
1A      Cufflinks       exon    2936176 2936751 .       +       .       gene_id "XLOC_000007"; transcript_id "TCONS_00000007"; exon_number "2
"; oId "CUFF.15.1"; tss_id "TSS7";
1A      Cufflinks       exon    4513117 4513204 .       +       .       gene_id "XLOC_000008"; transcript_id "TCONS_00000008"; exon_number "1
"; oId "CUFF.16.1"; tss_id "TSS8";
1A      Cufflinks       exon    4513297 4513387 .       +       .       gene_id "XLOC_000008"; transcript_id "TCONS_00000008"; exon_number "2
"; oId "CUFF.16.1"; tss_id "TSS8";
1A      Cufflinks       exon    4515550 4515649 .       +       .       gene_id "XLOC_000008"; transcript_id "TCONS_00000008"; exon_number "3
"; oId "CUFF.16.1"; tss_id "TSS8";
1A      Cufflinks       exon    8480276 8480450 .       +       .       gene_id "XLOC_000009"; transcript_id "TCONS_00000009"; exon_number "1
"; oId "CUFF.22.1"; tss_id "TSS9";
1A      Cufflinks       exon    9118651 9119264 .       +       .       gene_id "XLOC_000010"; transcript_id "TCONS_00000010"; exon_number "1
文件二中的第三、四列分别对应这个外显子的起始、终止位置,而后面的TCONS_00000001这部分是这个外显子所在的转录本,而每个转录本的外显子个数不一定,少的一个,多的数十个,中间位置有缺失,我想把每个转录本的所有外显子根据文件一的序列合并起来,输出为
>TCONS_00000001+外显子数目
ATGC....
>TCONS_00000002+外显子数目
GCTA...


谢谢大神们

论坛徽章:
1
2015年亚冠纪念徽章
日期:2015-10-02 15:18:14
2 [报告]
发表于 2015-10-02 11:36 |只看该作者
自己顶一个。。

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
3 [报告]
发表于 2015-10-02 12:57 |只看该作者
回复 1# 让阿阿


    这里的绝大多数人都不了解生物信息。所以,你还是把你的输入和输出之间的关系仔细描述下,然后把你的(即使是无法完全工作的)脚本贴上来。要是你就想别人帮你写个程序,那还是歇了吧。

论坛徽章:
7
巳蛇
日期:2013-11-28 09:22:59天秤座
日期:2014-10-25 15:40:452015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:53:172015亚冠之德黑兰石油
日期:2015-07-15 08:46:452015亚冠之平阳省
日期:2015-11-08 16:27:53白银圣斗士
日期:2015-11-14 09:58:12
4 [报告]
发表于 2015-10-03 20:10 |只看该作者
回复 3# MMMIX


    楼主应该是学生物的学生吧,呵呵

这个问题不是很难,建议楼主再仔细看会儿书,应该能搞定!

论坛徽章:
1
羊年新春福章
日期:2015-04-28 20:40:58
5 [报告]
发表于 2015-10-07 21:31 |只看该作者
楼主是想提取cufflinks组装的所有转录本的序列吧?但是提取出来是要做什么呢?回复 1# 让阿阿


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP