免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3620 | 回复: 12
打印 上一主题 下一主题

求一个更高效的程序,内附自己小白程序! [复制链接]

论坛徽章:
3
2015亚冠之武里南联
日期:2015-07-29 12:14:352015年亚冠纪念徽章
日期:2015-08-12 14:28:272015亚冠之德黑兰石油
日期:2015-09-09 17:15:52
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-07-29 17:22 |只看该作者 |倒序浏览
while (<IN>) {
chomp;
my $line=$_;
my @snp_data=split/\t/,$line;
my $chr="chr"."$snp_data[0]";
     foreach  (@gene) {
     chomp;
         my @pos= split /\t/,$_;
         
     next if $pos[0] ne $chr ;
         
         if(($snp_data[1]>=$pos[2])&&($snp_data[1]<=$pos[3])){
                 print OUT "$line\n";next;
                 }
   
}


}

我是期待的分隔线…………………………………………

这个程序的意思就是:gene 和 In的第一列的数字部分相同,并且 In 的第二列在gene 的三四列范围之间,就输出IN;
数据量大,两个循环很费时间。
<@gene>
chr1        ABCA4        94458582        94586799
chr1        ACADM        76190031        76229363
chr16        BBS2        56518258        56554008
chr17        G6PC        41052813        41066450
chr17        GAA        78078244        78093271

。。。。。。2000行


<IN>
1        94505603        rs368951547        C        T        NA        NA
1        94505604        rs61750126        A        C        0.02066        NA
1        94505611        rs137853898        G        A        NA        not-provided
1        94505620        rs370967816        T        A        NA        NA
1        94505621        rs149503495        T        C        NA        NA
1        94505627        rs374610040        A        G        NA        NA
22        18901263        rs377148163        C        A        NA        NA
22        18901290        rs381848        G        A        0.07989        NA
22        18901322        rs62232347        C        A        NA        NA
22        18901326        rs201353896        TCC        T        0.05005        NA
22        18901327        rs10537001        CCT        C        0.0528        NA
16        18901326        rs201353896        TCC        T        0.05005        NA
17        18901327        rs10537001        CCT        C        0.0528        NA
。。。。。。很多很多万行




论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
2 [报告]
发表于 2015-07-29 17:43 |只看该作者
回复 1# 54red


    把 gene 放到 hash 中。

论坛徽章:
7
戌狗
日期:2013-12-15 20:43:38技术图书徽章
日期:2014-03-05 01:33:12技术图书徽章
日期:2014-03-15 20:31:17未羊
日期:2014-03-25 23:48:20丑牛
日期:2014-04-07 22:37:44巳蛇
日期:2014-04-11 21:58:0915-16赛季CBA联赛之青岛
日期:2016-03-17 20:36:13
3 [报告]
发表于 2015-07-30 00:40 |只看该作者
shishi:
  1. #!/usr/bin/perl
  2. open my $G, 'gene';
  3. open my $I, 'IN';

  4. my %gene;

  5. while (<$G>) {
  6.     my ( $chr, undef, $r1, $r2 ) = split;
  7.     ($chr) = $chr =~ /(\d+)/;
  8.     push @{ $gene{$chr} }, [ $r1, $r2 ];
  9. }

  10. for ( values %gene ) {
  11.     @$_ = sort { $a->[0] <=> $b->[0] } @$_;
  12. }

  13. while (<$I>) {
  14.     my ( $chr, $pos ) = split /\s+/, $_, 3;
  15.     next unless exists $gene{$chr};
  16.     for my $R ( @{ $gene{$chr} } ) {
  17.         last if $pos < $R->[0];
  18.         next if $pos > $R->[1];
  19.         print;
  20.         last;
  21.     }
  22. }
复制代码

评分

参与人数 1信誉积分 +20 收起 理由
54red + 20 学到很多!十分感谢!

查看全部评分

论坛徽章:
7
戌狗
日期:2013-12-15 20:43:38技术图书徽章
日期:2014-03-05 01:33:12技术图书徽章
日期:2014-03-15 20:31:17未羊
日期:2014-03-25 23:48:20丑牛
日期:2014-04-07 22:37:44巳蛇
日期:2014-04-11 21:58:0915-16赛季CBA联赛之青岛
日期:2016-03-17 20:36:13
4 [报告]
发表于 2015-07-30 01:02 |只看该作者
回复 1# 54red
  1. foreach (@gene) {
  2.     chomp;
  3.     my @pos= split /\t/, $_;
复制代码
biru IN you 10 wan hang
gene 1 hang
chomp 10 wan ci
split 10 wan ci

论坛徽章:
3
2015亚冠之武里南联
日期:2015-07-29 12:14:352015年亚冠纪念徽章
日期:2015-08-12 14:28:272015亚冠之德黑兰石油
日期:2015-09-09 17:15:52
5 [报告]
发表于 2015-07-31 14:34 |只看该作者
用了楼上的程序,现在基本可以在半个小时出结果了,速度提高了100倍左右,再次感谢!

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
6 [报告]
发表于 2015-07-31 14:51 |只看该作者
回复 5# 54red


    其实,要数据量真的比较大(G级),而且你需要对其进行各种搜索,就上数据库吧。

论坛徽章:
7
戌狗
日期:2013-12-15 20:43:38技术图书徽章
日期:2014-03-05 01:33:12技术图书徽章
日期:2014-03-15 20:31:17未羊
日期:2014-03-25 23:48:20丑牛
日期:2014-04-07 22:37:44巳蛇
日期:2014-04-11 21:58:0915-16赛季CBA联赛之青岛
日期:2016-03-17 20:36:13
7 [报告]
发表于 2015-08-01 05:16 |只看该作者
回复 6# MMMIX

半个小时出结果

Do you have any medicines for this?
@104359176
@jason680

论坛徽章:
7
戌狗
日期:2013-12-15 20:43:38技术图书徽章
日期:2014-03-05 01:33:12技术图书徽章
日期:2014-03-15 20:31:17未羊
日期:2014-03-25 23:48:20丑牛
日期:2014-04-07 22:37:44巳蛇
日期:2014-04-11 21:58:0915-16赛季CBA联赛之青岛
日期:2016-03-17 20:36:13
8 [报告]
发表于 2015-08-01 06:26 |只看该作者
回复 5# 54red

keyi upload your data? (gene: all, IN: 1/2 or 1/4 or all)
wo shishi xie 1 ge bijiaokuaide code,
(dan bushi perl)
   

求职 : 软件工程师
论坛徽章:
3
程序设计版块每日发帖之星
日期:2015-10-07 06:20:00程序设计版块每日发帖之星
日期:2015-12-13 06:20:00程序设计版块每日发帖之星
日期:2016-05-05 06:20:00
9 [报告]
发表于 2015-08-01 12:11 |只看该作者
这个涉及到对另外一个大型的数据结构进行查询,这种算法半小时算快的了。

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
10 [报告]
发表于 2015-08-01 13:52 |只看该作者
本帖最后由 MMMIX 于 2015-08-01 13:59 编辑

回复 7# rubyish


    导入数据库,建好索引,然后再查询。G级的数据,估计几分钟也就出来了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP