12 3 4 5 / 5 页下一页

论坛徽章:: 8

电梯直达

1楼 [收藏(0)] [报告]

发表于 2014-03-11 10:41 |只看该作者 |倒序浏览

是这样的：
两个文本，第一个文本格式：

>scaffold16 36.5
AATTTTCGCTGGGTTGGGTGTGTCAATTTTTGGCCCAAACACAAACCCACCGTGAGGGTACCCCCGAGTTGCCTTGAGAC
>scaffold35 33.2
GTGTCTTTATATACATATATATGCCGGCTATACTAGATCCTCTTTTATTTTTCGAAAGAAATAGTCTAGCCGTTCGGCTA

复制代码

第二个文本格式：

scaffold16 GLEAN mRNA 1862 8809 0.997087 - .
scaffold16 GLEAN CDS 1862 2248 . - 0 Parent=P
scaffold16 GLEAN CDS 2709 2861 . - 0 Parent=P

复制代码

我现在想根据第二个文本提取第一个文本的字符串，建立哈希使第一个文本“>"行（key）对应下面非">"的字符串（value），然后根据哈希对第二个文本进行处理，第二个文本第一列是key，第四列是起始位置，第五列是终止位置，想得到的是第三列是CDS，对应value的起始位置到终止位置的字符串，存成一个文档后，根据指定的规则转换成新的字符串，每60个字符换行。。。
所以有了下面这个程序：

#!/usr/bin/perl -w
die "Usage: perl $0 gff fq\n" unless @ARGV == 2;
$fIn=$ARGV[1];
$txt=$ARGV[0];
my %seqId;
open (IN,$fIn) or die $!;
my $num=0;
my $seq="";
my $Id=<IN>;
chomp($Id);
my ($id) = ($Id =~ /\>(.*?)\s[0-9.]*/is);
#print $id;
while (<IN>) {
chomp;
if (/^>/){
$seqId{$id}=$seq;
$id=substr($_,1);
$id=~s/\s[0-9.]+//g;
$seq="";
}
else {
$seq=$seq.$_;
}
}
$seqId{$id}=$seq;
close IN;
open (TXT,$txt) or die $!;
while (<TXT>){
chomp;
my($chr,$s,$e,$p)=(split,$_)[0,3,4,2];
$l=$e - $s + 1;
&Sequence_extraction_part($chr,$s,$l,$_,$p);
}
sub Sequence_extraction_part{
my ($SequenceId,$start,$len,$m,$p)=@_;
if ($p =~ /CDS/){
if (exists $seqId{$SequenceId}){
open (OUT,">>Sequence_extraction_part.fa");
open (AA,">>aa_extraction_part.fa");
my $Seq=substr ($seqId{$SequenceId},$start-1,$len);
print OUT ">$m\n";
print AA ">$m\n";
while($Seq =~ /(.{3})/g) {
$aa.=&codon2aa($1);
}
for ($iii=0;$iii*60<length($Seq);$iii++){
print OUT substr($Seq,$iii*60,60),"\n";
}
for ($i=0;$i*60<length($aa);$i++){
print AA substr($aa,$i*60,60),"\n";
}
$aa="";
}else{
print ("$SequenceId\t$start\t$start+$len\terro\n");
close OUT;
}
}
}
close OUT;
close AA;
sub codon2aa{
my ($codon)=@_;
$codon = uc $codon;
my(%genetic_code) = (
'TCA' => 'S', # Serine
'TCC' => 'S', # Serine
'TCG' => 'S', # Serine
'TCT' => 'S', # Serine
'TTC' => 'F', # Phenylalanine
'TTT' => 'F', # Phenylalanine
'TTA' => 'L', # Leucine
'TTG' => 'L', # Leucine
'TAC' => 'Y', # Tyrosine
'TAT' => 'Y', # Tyrosine
'TAA' => '_', # Stop
'TAG' => '_', # Stop
'TGC' => 'C', # Cysteine
'TGT' => 'C', # Cysteine
'TGA' => '_', # Stop
'TGG' => 'W', # Tryptophan
'CTA' => 'L', # Leucine
'CTC' => 'L', # Leucine
'CTG' => 'L', # Leucine
'CTT' => 'L', # Leucine
'CCA' => 'P', # Proline
'CCC' => 'P', # Proline
'CCG' => 'P', # Proline
'CCT' => 'P', # Proline
'CAC' => 'H', # Histidine
'CAT' => 'H', # Histidine
'CAA' => 'Q', # Glutamine
'CAG' => 'Q', # Glutamine
'CGA' => 'R', # Arginine
'CGC' => 'R', # Arginine
'CGG' => 'R', # Arginine
'CGT' => 'R', # Arginine
'ATA' => 'I', # Isoleucine
'ATC' => 'I', # Isoleucine
'ATT' => 'I', # Isoleucine
'ATG' => 'M', # Methionine
'ACA' => 'T', # Threonine
'ACC' => 'T', # Threonine
'ACG' => 'T', # Threonine
'ACT' => 'T', # Threonine
'AAC' => 'N', # Asparagine
'AAT' => 'N', # Asparagine
'AAA' => 'K', # Lysine
'AAG' => 'K', # Lysine
'AGC' => 'S', # Serine
'AGT' => 'S', # Serine
'AGA' => 'R', # Arginine
'AGG' => 'R', # Arginine
'GTA' => 'V', # Valine
'GTC' => 'V', # Valine
'GTG' => 'V', # Valine
'GTT' => 'V', # Valine
'GCA' => 'A', # Alanine
'GCC' => 'A', # Alanine
'GCG' => 'A', # Alanine
'GCT' => 'A', # Alanine
'GAC' => 'D', # Aspartic Acid
'GAT' => 'D', # Aspartic Acid
'GAA' => 'E', # Glutamic Acid
'GAG' => 'E', # Glutamic Acid
'GGA' => 'G', # Glycine
'GGC' => 'G', # Glycine
'GGG' => 'G', # Glycine
'GGT' => 'G', # Glycine
);
if(exists $genetic_code{$codon})
{
return $genetic_code{$codon};
}
else
{
return "Bad codon \"$codon\"!!\n";
exit;
}
}

复制代码

可是非常非常慢。。对于第一个文本65M，第二个文本3.8M（57021行）的情况下，花了非常久的时间和内存。。。
所以。。。如果。。。大神们可以的话，可以提供一下优化帮助吗？

谢谢谢谢！

文库|博客

q1208c

富甲一方

论坛徽章:: 33

2楼 [报告]

发表于 2014-03-11 10:58 |只看该作者

看你的说明, 我进了雾里, 看你的代码, 我掉沟里了.

我现在终于明白有些不喜欢perl而喜欢python的原因了.

给楼主个建议, 第一, 尽可能少用或不用 $_ 这个变量. 虽然没什么不对, 但程序会更可读.
第二, 变量名不要太长, 且尽可能有点意义.
第三, 良好的缩进有助于代码的理解.
第四, 过于专业的内容, 请尽量用功能类似的简单的数据来解释, 对于非专业人士来说, 没多少人能理解你那一串串 "碱基".