Chinaunix

标题: 求一个更高效的程序,内附自己小白程序! [打印本页]

作者: 54red    时间: 2015-07-29 17:22
标题: 求一个更高效的程序,内附自己小白程序!
while (<IN>) {
chomp;
my $line=$_;
my @snp_data=split/\t/,$line;
my $chr="chr"."$snp_data[0]";
     foreach  (@gene) {
     chomp;
         my @pos= split /\t/,$_;
         
     next if $pos[0] ne $chr ;
         
         if(($snp_data[1]>=$pos[2])&&($snp_data[1]<=$pos[3])){
                 print OUT "$line\n";next;
                 }
   
}


}

我是期待的分隔线…………………………………………

这个程序的意思就是:gene 和 In的第一列的数字部分相同,并且 In 的第二列在gene 的三四列范围之间,就输出IN;
数据量大,两个循环很费时间。
<@gene>
chr1        ABCA4        94458582        94586799
chr1        ACADM        76190031        76229363
chr16        BBS2        56518258        56554008
chr17        G6PC        41052813        41066450
chr17        GAA        78078244        78093271

。。。。。。2000行


<IN>
1        94505603        rs368951547        C        T        NA        NA
1        94505604        rs61750126        A        C        0.02066        NA
1        94505611        rs137853898        G        A        NA        not-provided
1        94505620        rs370967816        T        A        NA        NA
1        94505621        rs149503495        T        C        NA        NA
1        94505627        rs374610040        A        G        NA        NA
22        18901263        rs377148163        C        A        NA        NA
22        18901290        rs381848        G        A        0.07989        NA
22        18901322        rs62232347        C        A        NA        NA
22        18901326        rs201353896        TCC        T        0.05005        NA
22        18901327        rs10537001        CCT        C        0.0528        NA
16        18901326        rs201353896        TCC        T        0.05005        NA
17        18901327        rs10537001        CCT        C        0.0528        NA
。。。。。。很多很多万行





作者: MMMIX    时间: 2015-07-29 17:43
回复 1# 54red


    把 gene 放到 hash 中。
作者: rubyish    时间: 2015-07-30 00:40
shishi:
  1. #!/usr/bin/perl
  2. open my $G, 'gene';
  3. open my $I, 'IN';

  4. my %gene;

  5. while (<$G>) {
  6.     my ( $chr, undef, $r1, $r2 ) = split;
  7.     ($chr) = $chr =~ /(\d+)/;
  8.     push @{ $gene{$chr} }, [ $r1, $r2 ];
  9. }

  10. for ( values %gene ) {
  11.     @$_ = sort { $a->[0] <=> $b->[0] } @$_;
  12. }

  13. while (<$I>) {
  14.     my ( $chr, $pos ) = split /\s+/, $_, 3;
  15.     next unless exists $gene{$chr};
  16.     for my $R ( @{ $gene{$chr} } ) {
  17.         last if $pos < $R->[0];
  18.         next if $pos > $R->[1];
  19.         print;
  20.         last;
  21.     }
  22. }
复制代码

作者: rubyish    时间: 2015-07-30 01:02
回复 1# 54red
  1. foreach (@gene) {
  2.     chomp;
  3.     my @pos= split /\t/, $_;
复制代码
biru IN you 10 wan hang
gene 1 hang
chomp 10 wan ci
split 10 wan ci
作者: 54red    时间: 2015-07-31 14:34
用了楼上的程序,现在基本可以在半个小时出结果了,速度提高了100倍左右,再次感谢!
作者: MMMIX    时间: 2015-07-31 14:51
回复 5# 54red


    其实,要数据量真的比较大(G级),而且你需要对其进行各种搜索,就上数据库吧。
作者: rubyish    时间: 2015-08-01 05:16
回复 6# MMMIX

半个小时出结果

Do you have any medicines for this?
@104359176
@jason680
作者: rubyish    时间: 2015-08-01 06:26
回复 5# 54red

keyi upload your data? (gene: all, IN: 1/2 or 1/4 or all)
wo shishi xie 1 ge bijiaokuaide code,
(dan bushi perl)
   
作者: 104359176    时间: 2015-08-01 12:11
这个涉及到对另外一个大型的数据结构进行查询,这种算法半小时算快的了。
作者: MMMIX    时间: 2015-08-01 13:52
本帖最后由 MMMIX 于 2015-08-01 13:59 编辑

回复 7# rubyish


    导入数据库,建好索引,然后再查询。G级的数据,估计几分钟也就出来了。
作者: 54red    时间: 2015-08-03 09:07
不好意思,暂时没有。回复 7# rubyish


   
作者: 54red    时间: 2015-08-03 09:10
谢谢啦,不过我不常用这个总表抽取的,半个小时可以接受了!回复 8# rubyish


   




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2