【问题】对N个相似文本进行计算分析？5000积分求解决~ - Chinaunix

Region 1 : chr1 21 33
0 0 0 0 0 1 1 6 26 26 27 27 28
Region 2 : chr1 73 108
2 2 2 2 2 3 3 3 3 6 7 7 7 7 7 7 7 7 7 7 19 19 19 19 19 19 19 19 19 19 20 20 20 20 20 21
Region 3 : chr1 109 124
48 48 48 48 48 48 47 53 53 53 53 53 56 57 55 55
Region 4 : chr1 21 33
32 44 44 44 44 46 47 47 47 47 47 54 61
Region 5 : chr1 83 99
26 26 27 27 27 27 28 28 33 33 33 33 33 33 34 34 35

复制代码

Region 1 : chr1 21 33
1 2 0 4 5 1 1 7 6 6 2 27 28
Region 2 : chr1 73 108
12 2 2 22 2 23 3 13 13 6 7 7 71 7 6 7 7 7 7 4 19 19 19 19 19 19 19 19 19 19 20 20 20 20 20 21
Region 3 : chr1 109 124
8 8 8 8 8 8 7 53 53 53 53 53 56 57 55 55
Region 4 : chr1 21 33
2 44 4 4 4 6 7 7 7 7 7 4 1
Region 5 : chr1 83 99
6 6 7 7 7 7 8 8 3 3 33 33 33 33 34 34 35

复制代码

#!/usr/bin/perl -w
use 5.010;
my @txt = qw/1.txt 2.txt/; # glob or ...
my @tmp = map { "$_.tmp" } @txt; # tmp files
my ( $fh, @fh ) = map { open my $f, '<', $_; $f } @txt;
my @write_fh = map { open my $f, '>', $_; $f } @tmp;
my ( $CHR, $BEGIN );
while (<$fh>) {
( $CHR, $BEGIN ) = (split)[ 3, 4 ];
my @pos = [ split /\s/, <$fh> ];
my $index = $#{ $pos[0] };
for my $f (@fh) {
readline $f;
push @pos, [ split /\s/, <$f> ];
}
my @ave = map {
my ( $i, $sum ) = $_;
$sum += $pos[$_][$i] for 0 .. $#pos;
$sum / @pos;
} 0 .. $#{ $pos[0] };
for my $i ( 0 .. $#pos ) {
my @flag = map {
my $F = $pos[$i][$_] / ( $ave[$_] || 1 );
[ $F = $F <= 0.3 ? 0 : $F > 0.6 ? 2 : 1, 1 ];
} 0 .. $index;
separate( $i, @flag );
}
}
sub separate {
my $index = shift;
my @flag = ( [], [], [] );
for my $f ( 1 .. 3 ) {
for ( my $i = 0 ; $i <= $#_ - 4 ; $i++ ) {
next if $_[$i][0] ne $f;
$i += 7 and next if !$_[ $i + 2 ][1];
my $end = $i + 4;
my $zero = 0;
for my $x ( reverse $end - 1 .. $end ) {
$_[$x][1] ? last : $zero++;
}
my $count = grep { $_[$_][0] == $f } $i .. $end - $zero;
next if $count < 3;
@{ $_[$_] } = ( $f, 0 ) for $i .. $end - $zero;
$i += 4 + $zero ? 5 - $zero : 0;
}
}
for my $i ( 0 .. $#_ ) {
!$flag[ $_[$i][0] ][0] || ( $i - $flag[ $_[$i][0] ][-1][-1] != 1 )
? push @{ $flag[ $_[$i][0] ] }, [$i]
: ( $flag[ $_[$i][0] ][-1][1] = $i );
}
my $i;
for my $f (@flag) {
$i++;
for my $range (@$f) {
@$range <= 1 || $range->[1] - $range->[0] < 2 and next;
my $range = join '-', map { $_ + $BEGIN } @$range;
say { $write_fh[$index] } "$txt[$index]\t$CHR\t$range\tf$i";
}
}
}
close $_ for @write_fh;
`cat @tmp > result.txt`; # cat
__DATA__
~ 0.3
0.3 ~ 0.6
0.6 ~

复制代码

问题本不难，你又不举例，
描述又乱写，让人费疑猜？

复制代码