Chinaunix

标题: 求一个更高效的程序，内附自己小白程序！ [打印本页]

作者: 54red 时间: 2015-07-29 17:22
标题: 求一个更高效的程序，内附自己小白程序！
while (<IN>) {
chomp;
my $line=$_;
my @snp_data=split/\t/,$line;
my $chr="chr"."$snp_data[0]";
   foreach  (@gene) {
   chomp;
   my @pos= split /\t/,$_;

   next if $pos[0] ne $chr ;

   if(($snp_data[1]>=$pos[2])&&($snp_data[1]<=$pos[3])){
   print OUT "$line\n";next;
   }

}

}

我是期待的分隔线…………………………………………

这个程序的意思就是：gene 和 In的第一列的数字部分相同，并且 In 的第二列在gene 的三四列范围之间，就输出IN；
数据量大，两个循环很费时间。
<@gene>
chr1 ABCA4 94458582 94586799
chr1 ACADM 76190031 76229363
chr16 BBS2 56518258 56554008
chr17 G6PC 41052813 41066450
chr17 GAA 78078244 78093271

。。。。。。2000行

<IN>
1 94505603 rs368951547 C T NA NA
1 94505604 rs61750126 A C 0.02066 NA
1 94505611 rs137853898 G A NA not-provided
1 94505620 rs370967816 T A NA NA
1 94505621 rs149503495 T C NA NA
1 94505627 rs374610040 A G NA NA
22 18901263 rs377148163 C A NA NA
22 18901290 rs381848 G A 0.07989 NA
22 18901322 rs62232347 C A NA NA
22 18901326 rs201353896 TCC T 0.05005 NA
22 18901327 rs10537001 CCT C 0.0528 NA
16 18901326 rs201353896 TCC T 0.05005 NA
17 18901327 rs10537001 CCT C 0.0528 NA
。。。。。。很多很多万行

作者: MMMIX 时间: 2015-07-29 17:43
回复 1# 54red

把 gene 放到 hash 中。

作者: rubyish 时间: 2015-07-30 00:40
shishi:

#!/usr/bin/perl
open my $G, 'gene';
open my $I, 'IN';
my %gene;
while (<$G>) {
my ( $chr, undef, $r1, $r2 ) = split;
($chr) = $chr =~ /(\d+)/;
push @{ $gene{$chr} }, [ $r1, $r2 ];
}
for ( values %gene ) {
@$_ = sort { $a->[0] <=> $b->[0] } @$_;
}
while (<$I>) {
my ( $chr, $pos ) = split /\s+/, $_, 3;
next unless exists $gene{$chr};
for my $R ( @{ $gene{$chr} } ) {
last if $pos < $R->[0];
next if $pos > $R->[1];
print;
last;
}
}

复制代码

作者: rubyish 时间: 2015-07-30 01:02
回复 1# 54red

foreach (@gene) {
chomp;
my @pos= split /\t/, $_;

复制代码

biru IN you 10 wan hang
gene 1 hang
chomp 10 wan ci
split 10 wan ci

作者: 54red 时间: 2015-07-31 14:34
用了楼上的程序，现在基本可以在半个小时出结果了，速度提高了100倍左右，再次感谢！

作者: MMMIX 时间: 2015-07-31 14:51
回复 5# 54red

其实，要数据量真的比较大（G级），而且你需要对其进行各种搜索，就上数据库吧。

作者: rubyish 时间: 2015-08-01 05:16
回复 6# MMMIX

半个小时出结果

Do you have any medicines for this?
@104359176
@jason680

作者: rubyish 时间: 2015-08-01 06:26
回复 5# 54red

keyi upload your data? (gene: all, IN: 1/2 or 1/4 or all)
wo shishi xie 1 ge bijiaokuaide code,
(dan bushi perl)

作者: 104359176 时间: 2015-08-01 12:11
这个涉及到对另外一个大型的数据结构进行查询，这种算法半小时算快的了。

作者: MMMIX 时间: 2015-08-01 13:52
本帖最后由 MMMIX 于 2015-08-01 13:59 编辑

回复 7# rubyish

导入数据库，建好索引，然后再查询。G级的数据，估计几分钟也就出来了。

作者: 54red 时间: 2015-08-03 09:07
不好意思，暂时没有。回复 7# rubyish

作者: 54red 时间: 2015-08-03 09:10
谢谢啦，不过我不常用这个总表抽取的，半个小时可以接受了！回复 8# rubyish

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)