请教一个关于范围操作符（..）的问题 [复制链接]

论坛徽章:: 1

11楼 [报告]

发表于 2013-09-04 22:10 |只看该作者

本帖最后由飞越地平线于 2013-09-04 22:12 编辑

回复 10# zhlong8

@bed里的文件（也就是目录B下的文件）有20来个，每个接近100M。之前我怕我的电脑内存不够就没有这样处理了。
用12G的电脑是不是就快多了？
直接操作数组是不是指这样？

#用@bedfile直接全部存入split后的bed文件内容，然后类似下面这样统计？
foreach my $line(@bedfile){
my $sNum=$line->[1];
# stop condition
last if($sNum > $sMax);
# start condition
if($sNum >= $sMin){
$num++;
next;
}
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zhlong8

版主

论坛徽章:: 46

12楼 [报告]

发表于 2013-09-05 08:07 |只看该作者

回复 11# 飞越地平线

你这么写12G是远远不够的，只保存 $line->[1] 即数据中的数字部分才勉强够，而用C只用1G多点就够了，这就是我前面说的 Perl 的限制。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jason680

富可敌国

论坛徽章:: 145

13楼 [报告]

发表于 2013-09-05 13:32 |只看该作者

本帖最后由 jason680 于 2013-09-05 13:40 编辑

回复 8# 飞越地平线

Sorry, it's hard to know what you want
Note: you didn't give us the example for result

and hard to know what you said ...
4楼
目录B有多个文件（文件名为chr1, chr2, chr3)，比如chr1文件内的内容像这样：
...

8楼
目录B下的文件名称是像bed_chr_1.bed, bed_chr_2.bed这样的
...

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

xiumu2280

家境小康

论坛徽章:: 8

14楼 [报告]

发表于 2013-09-05 14:03 |只看该作者

文件B的bed文件看样子应该是分染色体的。你循环A文件的时候多次重复打开文件句柄。
所以你要把1号染色体的位点放到一起，然后循环，只打开一次文件句柄。
文件B是SNP信息。
你在计算位点数量的时候，可以把位点存到数组，计算数量，要简单一些。
另外你用的map实在太多了。
threads这是个多线程的模块。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

飞越地平线

稍有积蓄

论坛徽章:: 1

15楼 [报告]

发表于 2013-09-05 23:05 |只看该作者

本帖最后由飞越地平线于 2013-09-06 08:51 编辑

回复 13# jason680

不好意思。4楼我说目录B里的文件（chr1, chr2, chr3）其实就是 8楼说的（bed_chr_1.bed, bed_chr_2.bed ), 为了简单化才这么说的。

如果你懂生物的话应该大概知道我想做的是什么，其实我就是想计算基因的SNP（单核苷酸多态）数。

目录A里有多个文件，每个文件保存着一类的基因（遍布各染色体），每行都是一个基因信息。比如（chr1 3 7 aa）指的就是（基因名称为aa，在1号染色体（chr就是chromosome）的起始3，终止7的位置上）；

目录B也有多个文件（bed_chr_1.bed, bed_chr_2.bed, bed_chr_3.bed )。比如文件bed_chr_1.bed的内容就是保存着1号染色体所有位置的SNP信息。比如一行里（chr1 7）就表示在1号染色体的7号位有一个SNP。

目的是统计目录A里所有的文件里的基因的SNP信息。目录A里有多少文件，就同样地生成多少文件。这些文件的结果里每行是（一个名称，一个SNP数）像是这样：
aa 10
bb 3
cc 5
dd 89

大概这样解释了。其中有些地方（例如bed文件的格式）不好讲，代码里统计SNP数的地方就不用太细看了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

飞越地平线

稍有积蓄

论坛徽章:: 1

16楼 [报告]

发表于 2013-09-06 00:38 |只看该作者

回复 12# zhlong8

嗯，我再试试。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

飞越地平线

稍有积蓄

论坛徽章:: 1

17楼 [报告]

发表于 2013-09-06 01:10 |只看该作者

回复 14# xiumu2280

谢谢关注！
如果把1号染色体的位点放到一起，然后循环，每次处理一行的时候，不是都需要重复的打开bed_ch_1.bed文件吗？
“你在计算位点数量的时候，可以把位点存到数组，计算数量，要简单一些。”这句话不懂。直接用$num记录？
我看了下，14行和15行的map可以并在一起的。另外想问下，map和foreach效率怎么样？

想问一下，从哪里看到threads的模块说明？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

rubyish

大富大贵

论坛徽章:: 7

18楼 [报告]

发表于 2013-09-06 06:39 |只看该作者

是不是指这样？

#!/usr/bin/perl
use 5.018;
@ARGV = glob "/tmp/A/*";
my %A;
while (<>) {
my ( $C, $N, $X, $G ) = split;
push @{ $A{$C} }, { min => $N, max => $X, G => $G, F => $ARGV };
}
while ( my ( $k, $v ) = each %A ) {
my ($N) = $k =~ /(\d+)$/;
open my $B, "/tmp/B/bed_chr_$N.bed" or next;
my @CHR = map { (split)[1] } <$B>;
for my $S (@$v) {
open my $NSP, '>>', $S->{F} . '.nsp';
say $NSP $S->{G}, "\t", SUM( \@CHR, $S->{min}, $S->{max} );
close $NSP;
}
}

复制代码

sub SUM:

sub SUM {
my ( $A, $N, $X, $S ) = @_;
return 0 if $N > $A->[ $#{$A} ] or $X < $A->[0];
for (@$A) {
last if $_ > $X;
next if $_ < $N;
$S++;
}
$S;
}

复制代码

OR sub SUM:

sub SUM {
my ( $A, $N, $X, $C ) = @_;
return 0 if $N > $A->[ $#{$A} ] or $X < $A->[0];
my $bs = sub {
my ( $W, $l, $r, $m ) = ( shift, shift, $#{$A} );
return $r if $W >= $A->[$r];
return 0 if $W <= $A->[$l];
goto R if $C;
while ( $l <= $r ) {
$m = int 0.5 * ( $l + $r );
$W > $A->[ $m - 1 ]
? $W <= $A->[$m] ? return $m : ( $l = $m + 1 )
: ( $r = $m - 1 );
}
R: while ( $l <= $r ) {
$m = int 0.5 * ( $l + $r );
$W < $A->[ $m + 1 ]
? $W >= $A->[$m] ? return $m : ( $r = $m - 1 )
: ( $l = $m + 1 );
}
};
my $L = $bs->( $N, 0 );
$bs->( $X, $L, $C++ ) - $L + 1;
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

xiumu2280

家境小康

论坛徽章:: 8

19楼 [报告]

发表于 2013-09-06 09:27 |只看该作者

1.你可以看下 programing perl中的哈希的数组这一章。文件A用chr1和基因名做成key,然后把后面碱基范围作为VALUE存到一个数组。可以把A里的所有文件cat到一起。
2.因为B类文件，应该是按染色体分类的吧？把每个文件中的数据位点存成hash的key，这样打开一次就可以了。然后循环上面hash中的value。把存在的结果push到一个数组里。算数量的时候就$num=@data。
3.map和foreach效率我还真不知道···map挺好，用了之后括号就没那么乱了。我的意思是你map很长，；的时候可以换一行。
4.去CPAN上看模块啊··
回复 17# 飞越地平线