12 3 / 3 页下一页

论坛徽章:: 8

电梯直达

1楼 [收藏(0)] [报告]

发表于 2013-10-13 15:58 |只看该作者 |正序浏览

论坛中toniz 大大的关于perl大文件排序处理测试（与oracle外部表比较）
http://bbs.chinaunix.net/forum.p ... mp;fromuid=29097174
这个帖子提到对大文件分块后排序合并，如果我想处理两个大文件，这两个文件每四行为一部分的，然后按照每部分的第二行进行排序，并且合并，什么样的程序才能避免大文件导致的时间占用和内存问题呢？（数据库就不考虑了，要存那么多东西需要太大空间了）
——————————————
排序文件：
1.txt：
@12@vip.com#20120307/1
BCDBCDBD
+
AAAAAAAA
@18@vip.com#20120307/1
BBDACCDA
+
AAAAAAAA
...
2.txt
@14@vip.com#20120307/1
AABCCCCD
+
AAAAAAAA
@12@vip.com#20120307/1
BCACACAD
+
AAAAAAAA
...
————————————————
结果：
@14@vip.com#20120307/1
AABCCCCD
+
AAAAAAAA
@18@vip.com#20120307/1
BBDACCDA
+
AAAAAAAA
@12@vip.com#20120307/1
BCACACAD
+
AAAAAAAA
@18@vip.com#20120307/1
BBDACCDA
+
AAAAAAAA
。。。。。
----------------------------------
求个程序学习，谢谢！

文库|博客

huang6894

大富大贵

论坛徽章:: 8

21楼 [报告]

发表于 2013-10-15 09:09 |只看该作者

回复 18# rubyish

我喜欢这个写法。。。。这里高手太多了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

20楼 [报告]

发表于 2013-10-15 09:08 |只看该作者

回复 17# 104359176

太感谢了。。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

19楼

发表于 2013-10-15 09:07

回复 16# stanley_tam

对不起，对不起。。。伸手党可耻了~谢谢大大

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

rubyish

大富大贵

论坛徽章:: 7

18楼 [报告]

发表于 2013-10-15 00:15 |只看该作者

本帖最后由 rubyish 于 2013-10-14 20:18 编辑

大牛，试试一下:

#!/usr/bin/perl
my $head = 5; # 或多或少
my %file;
@ARGV = qw/test.txt/;
while (<>) {
my $line2 = <>;
my $key = substr $line2, 0, $head;
unless ( $file{$key} ) {
open my $f, '>', "/tmp/$key";
$file{$key} = $f;
}
print { $file{$key} } $_, $line2, <>.<>;
}
close $file{$_} for keys %file;
open my $result, '>', 'result';
for my $file ( sort keys %file ) {
@ARGV = "/tmp/$file";
my @group;
push @group, [ $_, ~~<>, <>.<> ] while <>;
print $result @$_ for sort { $a->[1] cmp $b->[1] } @group;
unlink "/tmp/$file";
}
print scalar keys %file, ' files: BYE!';

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

104359176

丰衣足食

求职 : 软件工程师

论坛徽章:: 3

17楼 [报告]

发表于 2013-10-14 22:53 |只看该作者

本帖最后由 104359176 于 2013-10-14 23:01 编辑

我做了一个函数，先将需要排序的内容提取出来，放在一行上，这样就可以用 sort 工具来排序了。
然后用另外一个函数，将这个排序后的索引文件，重新生成你要的文件。

#!perl
use 5.010;
# 根据索引文件生成结果
sub create_file {
my ($input_file, $output_file) = @_;
open(my $input_fh, '<', $input_file) or die $!;
open(my $output_fh, '>', $output_file) or die $!;
while (my $line = <$input_fh>) {
chomp $line;
my ($index, $first_line) = split /\s+/, $line;
my $string = create_string($first_line, $index);
say {$output_fh} $string;
}
}
# 根据模板创建记录
sub create_string {
my ($first_line, $index_line) = @_;
return "$first_line\n$index_line\n+\nAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA";
}
# 将不同的部分按照索引行提取出来，生成新的文件，一行一条记录
sub filter_index_file {
my ($input_file, $output_file) = @_;
open(my $input_fh, '<', $input_file) or die $!;
open(my $output_fh, '>', $output_file) or die $!;
my $line_number = 0;
my $first_line = '';
while (my $line = <$input_fh>) {
chomp $line;
$line_number++;
$first_line = $line if ($line_number % 4 == 1);
if ($line_number % 4 == 2) {
say {$output_fh} $line . chr(32) . $first_line;
}
}
close $input_fh;
close $output_fh;
}
filter_index_file('test.txt', 'filter.txt');
system("sort filter.txt > index_sort.txt");
create_file('index_sort.txt', 'sort.txt');