123 / 3 页下一页

perl 大文件分析 [复制链接]

wsxedcer

丰衣足食

论坛徽章:: 0

11楼 [报告]

发表于 2012-11-02 17:26 |只看该作者

先切割成N个小文件，然后数量全部汇总在计算前1000，不然很可能会失真

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

kofpet

白手起家

论坛徽章:: 0

12楼 [报告]

发表于 2012-11-02 20:41 |只看该作者

感谢各位的支持，在外出差中。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wxlfh

家境小康

论坛徽章:: 1

13楼 [报告]

发表于 2012-11-02 23:01 |只看该作者

回复 1# kofpet

#如果能预计到日志文件中所有可能的url不超过100万个
use strict;
open my $log, "<", "your_log_file" or die $!;
my ( %log );
while ( <$log> ) {
chomp;
my $url = farse_url( $_ );
next unless $url;
$log{$url}++;
}
close $log;
my $i;
for my $key ( (sort { $log{$b}<=>$log{$a} } keys %log)[0..999] ) {
print "$key => $log{$key}\n";
}
sub farse_url {
my $line = shift;
.
. # farse your url and return
.
return $url;
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jorneyR

白手起家

论坛徽章:: 0

14楼 [报告]

发表于 2012-11-03 07:57 |只看该作者

这个是很典型的在一组数中求K个最大的数的算法。
1. 如果这些URL以后需要用，可以把日志里的URL全提出来放到一个文件里
2. 解析这些文件，可以按行读。也可以读取一个缓冲，如一次性读取几M，再按行读，需要处理断行的地方
3. 就是创建一个1000个元素的小顶堆，如遇到比堆顶大的元素，则替换堆顶元素，然则调整堆，保证其仍然是小顶堆

这种做法，与日志文件大小无关，需要的内存都是大小固定的。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wxlfh

家境小康

论坛徽章:: 1

15楼 [报告]

发表于 2012-11-03 08:58 |只看该作者

回复 14# jorneyR

关键是要统计每个url的点击次数，这个怎么解决？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ecjtubaowp

富足长乐

论坛徽章:: 1

16楼 [报告]

发表于 2012-11-03 10:07 |只看该作者

的确，处理这样的问题，想想可行的算法才是王道。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wxlfh

家境小康

论坛徽章:: 1

17楼 [报告]

发表于 2012-11-03 13:29 |只看该作者

本帖最后由 wxlfh 于 2012-11-03 13:52 编辑

回复 1# kofpet

#如果600G文件中可能的url实在太多，以致根本不能放入内存中，那就来个不精确的排序
#按行读取，超过500000个url，则把前2000名写入文件；然后再重复
#最后在文件中统计，并输出前1000名
use strict;
open my $log, "<" , "your_log_file" or die $!;
open my $fh , ">+", "LOG_HASH.txt" or die $!;
my ( %log,$max_key,$check,$i );
$max_key = 50_0000;
$check = 1_0000;
$limit = 1999;
while ( <$log> ) {
chomp;
my $url = farse_url( $_ );
next unless $url;
$i++;
$log{$url}++;
unless ( $i % $check ) { # 每找到10000个url检查一次
my $keys = keys %log;
if ( $keys > $max_key ) { # 超过500000个url就把前2000名写入文件
write_file( [(sort { $log{$b}<=>$log{$a} } keys %log)[0..$limit]] );
%log = ( );
}
$i = 0;
}
}
write_file( [(sort { $log{$b}<=>$log{$a} } keys %log)[0..$limit]] ); # 最后不足500000个的，也把前2000名写入文件
close $fh;
%log = ( );
open $log, "<", "LOG_HASH.txt" or die $!;
while ( <$log> ) {
chomp;
$log{$1} += $2 if /^(\S+)\s=\s(\d+)/;
}
close $log;
for ( (sort {$log{$b}<=>$log{$a}} keys %log)[0..999] ) {
print "$_ => $log{$_}\n"; # 打印前1000名url
}
sub farse_url {
my $line = shift;
.
. # farse your url and return
.
return $url;
}
sub write_file {
my $keys = shift;
print $fh "$_ = $log{$_}\n" for @{$keys};
}