12 / 2 页

论坛徽章:: 1

11楼 [报告]

发表于 2011-04-04 08:34 |只看该作者

回复 9# mingxw

谢谢，尤其是

         while(length($DNA)>$out_line_length) {
                  print OUT substr($DNA,0,$out_line_length,""),"\n";
         }

受教了！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

longbow0

家境小康

论坛徽章:: 0

12楼 [报告]

发表于 2011-04-04 22:24 |只看该作者

本帖最后由 longbow0 于 2011-04-04 22:33 编辑

回复 10# chenhao392

perl 函数 index 可以返回子串在字符串中的位置。只是不知道对于很长的字符串效率怎么样。

while ( my $seq = $seqi->next_seq ) {
my $chr_seq = $seq->seq;
my @sseqs = split /[a-z]+/, $chr_seq; # 提取大写序列
for my $sseq ( @sseqs ) {
next if length( $sseq ) < 500;
my $start = index($chr_seq, $sseq);
my $end = $start + length( $sseq ) -1;
print 'Start: ', $start, "\t", 'End: ', $end, "\n", $sseq, "\n"; # 直接打印
}
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

chenhao392

稍有积蓄

论坛徽章:: 1

13楼 [报告]

发表于 2011-04-05 01:01 |只看该作者

回复 12# longbow0

这个，应该不佳吧...
要重新匹配序列的位置，生物信息有个概念叫blast的，是个启发算法。即便如此，blast完整个基因组.....也要很久了...
当然完全相同的片段，定位该会容易些...
但是...一个特定功能的基因，在基因组上可能有多个copy的...

我之所以想去掉小写的片段，就是因为这些地方都是重复片段，非常影响index()一类的效率..
我给出一个blast算法的大概说明吧：

   1. 将用于搜索的序列（query seq）打散成三字符长的一系列片段，如ABCDE，变成ABC， BCD， CDE...
   2. 给每一个三字符片段进行生物学上的评估(如BLOSM62矩阵)，找出更有意义的片段：高分片段
   3. 将这些片段map在基因组上
   4. 将每个片段在基因组上向两侧延伸，即query seq和基因组序列进行联配(alignment)..遇到match就加分，mismatch或者gap就减分..
   5. 保留在基因组上达到一定分数的联配结果，称为（HSP：High Score..什么的）
   6. 将这些HSP综合成最后的blast输出（比如两个临近的HSP组合成一个更大的片段）