论坛徽章:: 0

11楼 [报告]

发表于 2010-05-22 12:10 |只看该作者

回复 9# iamlimeng

#!/usr/bin/perl
use strict;
use warnings;
my %hash;
open PTT, "file1" or die 'Can not open the required file file1 !';
while (my $PTT_line = <PTT>)
{
my @ptt = split /\s+/, $PTT_line;
push @{$hash{$ptt[0]},[@ptt];
}
close PTT;
open BR, "file2" or die 'Can not open the required file file2 !';
while (my $BR_line = <BR>) {
my @br = split /\s+/, $BR_line;
if(exists $hash{$br[0]})
{
foreach my $item (@{$hasn{$br[0]}})
{
if(($br[8] >= $item->[1]) and ($br[9] <= $item->[2]))
{
chomp $BR_line;
print $BR_line , ' ', join "\t",@$item;
}
}
}
}
close BR;

复制代码

是可行的只是多用点内存而已

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

iamlimeng

富足长乐

论坛徽章:: 0

12楼 [报告]

发表于 2010-05-22 12:31 |只看该作者

本帖最后由 iamlimeng 于 2010-05-22 12:43 编辑

回复 11# hu145165

学习了，在内存够大的情况确实是很好很高效的方法，这是关系型数据库的方法，我想到要用HASH过滤数据，减少计算，但没找到这个方法。

如果想节省内存，可以考虑在%hash中只存储@PTT的索引（行号），在条件判断时再去SPLIT，那样内存中就只有file1的数组@PTT和一个数据量不太大的%hash.

#!/usr/bin/perl
use strict;
use warnings;
my %hash;
open PTT, "file1" or die 'Can not open the required file file1 !';
my @PTT = <PTT>;
close PTT;
for (0..$#PTT)
{
my @ptt = split /\s+/, $PTT[$_];
push @{$hash{$ptt[0]}},$_;
}
open BR, "file2" or die 'Can not open the required file file2 !';
while (my $BR_line = <BR>) {
my @br = split /\s+/, $BR_line;
if(exists $hash{$br[0]})
{
foreach my $no (@{$hash{$br[0]}})
{
my @ptt = split /\s+/, $PTT[$no];
if($br[8] >= $ptt[1] and $br[9] <= $ptt[2])
{
chomp $BR_line;
print $BR_line , ' ', join ' ',$PTT[$no];
}
}
}
}
close BR;

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

iamlimeng

富足长乐

论坛徽章:: 0

13楼 [报告]

发表于 2010-05-22 13:01 |只看该作者

另外，在我的印象中，处理同样大小的数据，HASH的内存开销大于数组，且效率也低于数组。那在处理大量数据的情况下，效率应该区别明显。

所以请楼主把各种方法都运行一次，并记录运行时间，并贴出来。这样也好让大家对HASH和数组在处理同样大小的大量数据时的效率有个了解。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

kidaaaa

白手起家

论坛徽章:: 0

14楼 [报告]

发表于 2010-05-22 13:16 |只看该作者

太感谢楼上各位的帮助了，我这就试试

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

kidaaaa

白手起家

论坛徽章:: 0

15楼 [报告]

发表于 2010-05-22 13:45 |只看该作者

另外，解释一下，我说的是“当：文件1的第一列等于文件2的第二列”
这是一个条件判断，不是文件本有的性质。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

kidaaaa

白手起家

论坛徽章:: 0

16楼 [报告]

发表于 2010-05-22 20:33 |只看该作者

本帖最后由 kidaaaa 于 2010-05-22 20:35 编辑

呃。。。。。。各位的代码都是基于假设我的文件1的第一列是唯一的。可是遗憾的告诉大家，不是这样。
文件1的第一列是有重复的。

我这两个文件中只有文件2的第一列是唯一的，但是这一列数据却并不参与我的筛选条件当中。除此之外，其它数据列都没有唯一性。
杯具啊！！

像我这样的数据提取任务是不是交给数据库程序来完成更好啊？希望大家指点下，我初步尝试过用mysql来处理，貌似并不快。不知是我查询优化不好还是mysql的大数据量处理能力不好的原因？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

SNYH

家境小康

论坛徽章:: 0

17楼 [报告]

发表于 2010-05-22 21:23 |只看该作者

自己使用
Benchmark
查看瓶颈在那

初步观察
my @br = split /\s+/, $BR_line;
这种写法很可能是原因所在
不要直接丢到一个数组里面去

改成
my ($c1,undef, $c3,undef,...) = split /\s+/, $BR_line;
这种形式

如果效率还是达不到就换C吧
这种简单功能来说自己通过优化实现应该会比使用数据库效率高