免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: huang6894
打印 上一主题 下一主题

学渣求学霸帮忙改改作业。。。 [复制链接]

论坛徽章:
0
31 [报告]
发表于 2014-03-14 14:05 |只看该作者
之前的code我是看前面你和黑吐司大神的code去修正的

可是在我看完這份data之後

我有發現一些小問題

下面這兩行annotation你可以計算一下

scaffold101        GLEAN        CDS        3011        3302        .        -        1        Parent=Pm020658;
scaffold101        GLEAN        CDS        3426        3673        .        -        0        Parent=Pm020658;

他們的長度都不是3的倍數

所以你要轉amino-acid的時候會有問題

你們的要求是要先把CDS的序列分別抓出來

然後把他們接起來成一段序列

之後再轉成amin-acid這樣嗎

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
32 [报告]
发表于 2014-03-14 14:29 |只看该作者
回复 31# afukada


    是呀。。。我们不是一般都默认三个翻译一个,然后如果不足的话不处理吗

论坛徽章:
0
33 [报告]
发表于 2014-03-14 14:59 |只看该作者
通常是會把每一個小片段給接起來

然後再做轉譯的動作

舉例來說明

假設有一個gff經過處理得到這些數據

scaffold1        ABC        CDS        1        21        .        +        0        Parent=Pm01;
scaffold1        ABC        CDS        51        70        .        +        0        Parent=Pm01;
scaffold1        ABC        CDS        91        112        .        +        1        Parent=Pm01;

然後我們把這三段分別給找出來出來

ATGAAAACGTCGTTTATAGAA
GGACCCAGCCCCCCAAAAGG
TTTTCTTAATGGGATGACATGA

接下來把他們接成一條序列

ATGAAAACGTCGTTTATAGAAGGACCCAGCCCCCCAAAAGGTTTTCTTAATGGGATGACATGA

之後再進行轉錄

MKTSFIEGPSPPKGFLNGMT_

我們通常會檢查結果看看開頭是不是M(Methionine), 結尾是不是stop codon, 轉出來的amino-acid中間是不是還有stop codon

當然我並不清楚你們的要求是什麼

或許你們只需要針對每一個片段來做轉譯amino-acid的動作

所以必須先了解你們的需求

這樣才有辦法去寫出正確的code

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
34 [报告]
发表于 2014-03-14 15:14 |只看该作者
回复 33# afukada


    哇塞。。。好像还真是这样呢。。。。学霸大哥,赞啊~

论坛徽章:
5
丑牛
日期:2014-01-21 08:26:26卯兔
日期:2014-03-11 06:37:43天秤座
日期:2014-03-25 08:52:52寅虎
日期:2014-04-19 11:39:48午马
日期:2014-08-06 03:56:58
35 [报告]
发表于 2014-03-14 15:57 |只看该作者
本帖最后由 pitonas 于 2014-03-14 09:07 编辑
  1. 我們通常會檢查結果看看開頭是不是M(Methionine),
  2. 結尾是不是stop codon,
  3. 轉出來的amino-acid中間是不是還有stop codon
复制代码
大神,不好意思啊,如何处理这些 ?
  1. 1: 開頭不是M
  2. 2: stop codon
  3. 3: 結尾不是stop codon
复制代码
帮忙举个栗子. 大神能不能指导我一下呢?

回复 33# afukada


   

论坛徽章:
0
36 [报告]
发表于 2014-03-14 16:14 |只看该作者
回复 34# huang6894
大約是這樣吧

細節請你自己再看一下
sca_trans.rar (944 Bytes, 下载次数: 3)
__

雖然我覺得幫人家寫作業是不好的

不過我是覺得你是因為要花費的資源(時間,內存)太大

所以給你一點幫助

這個code還可以再優化

其實我想你應該是用desktop在跑

所以才會跑得比較慢

不然以65M的fasta應該是還好

這個code理論上應該5分鐘內可以跑得完

如果還是太慢再說吧

   

论坛徽章:
0
37 [报告]
发表于 2014-03-14 16:22 |只看该作者
回复 35# pitonas

黑吐司大神客氣了

我們交流交流

你所問的三個狀況

1: 開頭不是M
2: stop codon
3: 結尾不是stop codon

要看想要得到的資訊如何

通常我自己會先拿這三個資訊來檢查我自己寫出來的code有沒有錯誤
(因為絕大多數在處理的amino-acid應該會有這些特性)

如果確定code沒有寫錯

1和3的情況有時候我們會把結果留下來

並且註記這個結果可能是annotation不完整

2的情況比較有可能會丟掉

因為這個比較有可能是annotation出錯

论坛徽章:
5
丑牛
日期:2014-01-21 08:26:26卯兔
日期:2014-03-11 06:37:43天秤座
日期:2014-03-25 08:52:52寅虎
日期:2014-04-19 11:39:48午马
日期:2014-08-06 03:56:58
38 [报告]
发表于 2014-03-14 16:33 |只看该作者
{:2_172:}  大神, 我需要你帮我理解这个, 谢谢!
  1. my %code = ( ATG => 'A', TAA => 'B' );
  2. my $SEQ  = 'ATGTTTTAA';
复制代码
ATG => 'A'
TTT => ignore, 會丟掉
TAA => 'B'
  1. result = 'AB';
复制代码
回复 37# afukada


   

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
39 [报告]
发表于 2014-03-14 16:42 |只看该作者
回复 36# afukada


    恩恩,谢谢大神,我知道的。。。我就是想学习一下,作业是之前的,但是一直想找到优化方法。。。谢谢两位大神的指导,谢谢,谢谢

论坛徽章:
0
40 [报告]
发表于 2014-03-14 16:47 |只看该作者
回复 38# pitonas


這個case是有一個不存在的codon

如果不管那個不存在的codon

我們會這樣處理
  1. my %code=(ATG=>"A",TAA=>"B");
  2. my $SEQ="ATGTTTTAA";

  3. ($nseq=$SEQ)=~s/(.{3})/$code{$1}/eg;
  4. print $nseq,"\n";
复制代码
如果給他一個missing codon(比方說X)

我們會這樣做
  1. my %code=(ATG=>"A",TAA=>"B");
  2. my $SEQ="ATGTTTTAA";

  3. ($nseq=$SEQ)=~s/(.{3})/$code{$1}||"X"/eg;
  4. print $nseq,"\n";
复制代码
通常會採用下面的這個做法

這樣能確保轉譯出來的長度是正確的

請問這是大神的問題嗎
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP