12 / 2 页

论坛徽章:: 5

11楼 [报告]

发表于 2013-11-18 17:55 |只看该作者

亲亲？
x Cluster_1 y
x Cluster_2 y
x Cluster_2 y
x Cluster_3 y
这样Cluster_2 条数，对数是？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

dqw233

白手起家

论坛徽章:: 1

12楼 [报告]

发表于 2013-11-18 23:58 |只看该作者

本帖最后由 dqw233 于 2013-11-19 00:00 编辑

use strict;
use warnings;
use feature 'say';
my @lines = <DATA>;
my %m;
my %d;
for (@lines) {
my @matchs = $_ =~ /(Cluster_\d+)/g;
$m{$_} ++ for @matchs;
}
while (@lines) {
my ($fl, $nl) = (shift @lines, shift @lines);
my @fm = $fl =~ /(Cluster_\d+)/g;
my @nm = $nl =~ /(Cluster_\d+)/g;
next unless exists $fm[0] && exists $nm[0];
$d{$fm[0]} ++ if $fm[0] eq $nm[0];
next unless exists $fm[1] && exists $nm[1];
$d{$fm[1]} ++ if $fm[1] eq $nm[1];
}
say "$_ $m{$_} ".($d{$_}//0) for keys %m;
__DATA__
HWI-ST1106:755:H0V1MADXX:2:1101:1221:2186 Cluster_29235 XA:Z:Cluster_67972,+589,100M,0;
HWI-ST1106:755:H0V1MADXX:2:1101:1221:2186 Cluster_29235 XA:Z:Cluster_67972,-771,100M,1;
HWI-ST1106:755:H0V1MADXX:2:1101:1270:2135 Cluster_39664
HWI-ST1106:755:H0V1MADXX:2:1101:1270:2135 Cluster_39664
HWI-ST1106:755:H0V1MADXX:2:1101:1483:2147 Cluster_33745
HWI-ST1106:755:H0V1MADXX:2:1101:1483:2147 Cluster_67963
HWI-ST1106:755:H0V1MADXX:2:1101:1318:2150 Cluster_79602 XA:Z:Cluster_42584,-594,100M,0;
HWI-ST1106:755:H0V1MADXX:2:1101:1318:2150 Cluster_79602 XA:Z:Cluster_42584,+409,100M,1;
HWI-ST1106:755:H0V1MADXX:2:1101:1383:2209 Cluster_18421
HWI-ST1106:755:H0V1MADXX:2:1101:1383:2209 Cluster_18421
HWI-ST1106:755:H0V1MADXX:2:1101:1676:2131 Cluster_69157 XA:Z:Cluster_29478,+828,100M,0;
HWI-ST1106:755:H0V1MADXX:2:1101:1676:2131 Cluster_69157 XA:Z:Cluster_29478,-1069,100M,0;
HWI-ST1106:755:H0V1MADXX:2:1101:1543:2146 Cluster_41540
HWI-ST1106:755:H0V1MADXX:2:1101:1543:2146 Cluster_41540
HWI-ST1106:755:H0V1MADXX:2:1101:1725:2175 Cluster_40792
HWI-ST1106:755:H0V1MADXX:2:1101:1725:2175 Cluster_40789 XA:Z:Cluster_40790,-372,100M,0;
HWI-ST1106:755:H0V1MADXX:2:1101:1516:2211 Cluster_6748 XA:Z:Cluster_54877,-968,100M,3;
HWI-ST1106:755:H0V1MADXX:2:1101:1516:2211 Cluster_6748 XA:Z:Cluster_54877,+711,100M,0;
HWI-ST1106:755:H0V1MADXX:2:1101:1902:2088 Cluster_6876
HWI-ST1106:755:H0V1MADXX:2:1101:1902:2088 Cluster_6876

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

lxb456811

白手起家

论坛徽章:: 0

13楼 [报告]

发表于 2013-11-19 08:44 |只看该作者

你是学生物的吧，这个是二代测序的结果？
你的要求用一个Hash就可以实现的。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

旋转小马

稍有积蓄

论坛徽章:: 1

14楼 [报告]

发表于 2013-11-19 09:44 |只看该作者

我不是学生物的，但是是从事这一行业，初学者，不懂，请教具体的代码怎样实现，现在想两行两行的读取文件，之前是一行一行读取的，用了三个哈希还有好多判断语句，太占内存了，所以想两行两行的读取文件来达到优化的目的，具体代码请教一下？？？回复 13# lxb456811

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pitonas

家境小康

论坛徽章:: 5

15楼 [报告]

发表于 2013-11-19 10:13 |只看该作者

亲？这样能明白了。

#!/usr/bin/perl -w
my ( %number, %pair );
while (<DATA>) {
my %n1 = map { $_ => 1 } /(Cluster_\d+)/g;
my @n2 = <DATA> =~ /(Cluster_\d+)/g;
my @pair = grep { $n1{$_} } @n2;
$number{$_}++ for keys %n1, @n2;
$pair{$_}++ for @pair;
}
print join( "\t", $_, $number{$_} // 0, $pair{$_} // 0 ), "\n" for keys %number;
__DATA__
HWI-ST1106:755:H0V1MADXX:2:1101:1221:2186 Cluster_29235 XA:Z:Cluster_67972,+589,100M,0;
HWI-ST1106:755:H0V1MADXX:2:1101:1221:2186 Cluster_29235 XA:Z:Cluster_67972,-771,100M,1;
HWI-ST1106:755:H0V1MADXX:2:1101:1483:2147 Cluster_29235
HWI-ST1106:755:H0V1MADXX:2:1101:1483:2147 Cluster_67963

复制代码

Cluster_29235 3 1
Cluster_67963 1 0
Cluster_67972 2 1

复制代码

回复 1# 旋转小马

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

旋转小马

稍有积蓄

论坛徽章:: 1

16楼 [报告]

发表于 2013-11-19 15:27 |只看该作者

嗯嗯，这样就实现了，不过对我这初学者来说，你写代码有点高端，看不大懂，当然如果把最后的输出文件中的第二列或者第三列由大到小进行一下排序那就最好了回复 15# pitonas

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

月光倾城asto

白手起家

论坛徽章:: 0

17楼 [报告]

发表于 2013-11-19 16:57 |只看该作者

回复 15# pitonas

学习了。

my @n2 = <DATA> =~ /(Cluster_\d+)/g;
这句是不是将整个文件的cluster_*组成 @n2？
是否可以放在循环外？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yestreenstars

富甲一方

论坛徽章:: 32

18楼 [报告]

发表于 2013-11-20 15:12 |只看该作者

#!/usr/bin/perl
while (<>) {
if (!($.%2)) {
while (/(Cluster_\d+)/g) {
$hash1{$1}++;
$hash2{$1}++ if $1 ~~ @array;
}
undef @array;
} else {
while (/(Cluster_\d+)/g) {
push @array,$1;
$hash1{$1}++;
}
}
}
END {
foreach (sort keys %hash1) {
$hash2{$_} = 0 if ! $hash2{$_};
print "$_\t$hash1{$_}\t$hash2{$_}\n";
}
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jzp520520

白手起家

论坛徽章:: 0

19楼 [报告]

发表于 2013-11-21 00:10 |只看该作者

测试下这段代码：my $rst = {};
while (<FH>) {
while (/(cluster_\d+)/ig) {
my $ID = $1;

if (exists ${$rst}{$ID}) {
${$rst}{$ID}{ts}++;
if (${$rst}{$ID}{ts}%2==0) {

${$rst}{$ID}{ds}++;
}
next;
}
${$rst}{$ID}{ts}++;
}

}
while (my ($key,$value)=each %$rst) {
print "$key $$value{ts} $$value{ds}\n";
}

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › 现在需要编一个数理统计的程序，弄不出来了，求大神帮忙 ...

现在需要编一个数理统计的程序，弄不出来了，求大神帮忙，万分万分感谢！！！ [复制链接]

浏览过的版块