字符串排序 - Chinaunix - Powered by Discuz!

=info
code by 523066680
2017-06
=cut
#!/usr/bin/perl
use strict;
use IO::Handle;
STDOUT->autoflush(1);
our $SRC = "A.txt";
our $DST = "Final.txt";
our %letter;
our @group = ('a'..'z', 'A'..'Z');
our $wd = "./tempfolder";
mkdir $wd if (not -e $wd);
ANALYSE_AND_EXPORT:
{
my %FH;
#提前准备多个文件句柄
grep { open $FH{$_}, ">:raw", "$wd/T${_}.txt" or die "$!" } @group;
open READ, "<:raw", $SRC or die "$!";
while ( my $line = <READ> )
{
if ($line=~/([a-zA-Z])/)
{
$letter{$1} = 0 if ( not exists $letter{$1} );
$letter{$1}++;
select $FH{$1};
print $line;
}
}
#清理所有文件句柄
grep { close $FH{$_} } @group;
close READ;
select STDOUT;
}
COLLECT_DATA:
{
my $RESULT;
my $TempFH;
open $RESULT, ">:raw", $DST or die "$!";
#按出现的次数排列出优先顺序
my @rank = sort_byValue(\%letter);
for my $name ( @rank )
{
print "Reading F$name.txt ... \n";
open $TempFH, "<:raw", "$wd/T$name.txt" or die "$!";
while (my $line = <$TempFH>)
{
print $RESULT $line;
}
close $TempFH;
}
print "Please check $DST\n";
}
sub sort_byValue
{
my $ref = shift;
my @arr;
@arr = reverse sort map { $ref->{$_} .",". $_ } keys %$ref;
my ($char, $times);
for (@arr)
{
($times, $char) = split(",", $_);
print "char: $char, times: $times\n";
}
return (map { /,(.)$/; $_ = $1 } @arr);
}

复制代码

=info
Code by 523066680
2017-06 V2.0
Bug1 忘了windows文件名不分大小写，"Ta.txt" == "TA.txt"，改为用ASCII码
Bug2 数值排序，而不是字符串排序 -- 例如："9" 应小于 "21"
=cut
#!/usr/bin/perl
use strict;
use IO::Handle;
STDOUT->autoflush(1);
our $SRC = "A.txt";
our $DST = "Final.txt";
our %letter;
our @group = map { ord($_) } ('a'..'z', 'A'..'Z');
our $wd = "./tempfolder";
mkdir $wd if (not -e $wd);
ANALYSE_AND_EXPORT:
{
my %FH;
#提前准备多个文件句柄
grep { open $FH{$_}, ">:raw", "$wd/T${_}.txt" or die "$!" } @group;
open READ, "<:raw", $SRC or die "$!";
while ( my $line = <READ> )
{
next if ( $line=~/^\r?\n$/ );
if ($line=~/([a-zA-Z])/)
{
$letter{$1} = 0 if ( not exists $letter{$1} );
$letter{$1}++;
select $FH{ord($1)};
print $line;
}
}
#清理所有文件句柄
grep { close $FH{$_} } @group;
close READ;
select STDOUT;
}
COLLECT_DATA:
{
my $RESULT;
my $TempFH;
open $RESULT, ">:raw", $DST or die "$!";
#按出现的次数排列出优先顺序
my @rank = sort_byValue(\%letter);
for my $name ( @rank )
{
print "Reading F$name.txt ... \n";
open $TempFH, "<:raw", "$wd/T$name.txt" or die "$!";
while (my $line = <$TempFH>)
{
print $RESULT $line;
}
close $TempFH;
}
print "Please check $DST\n";
}
sub sort_byValue
{
my $ref = shift;
my @arr;
#不知道有没有绕弯路 =_=
@arr = reverse sort { "$a,$b," =~/-(\d+),.*-(\d+),/; $1 <=> $2 }
map { $_ ."-". $ref->{$_} } keys %$ref;
my ($char, $times);
for (@arr)
{
($char, $times) = split("-", $_);
print "char: $char, times: $times\n";
}
return ( map { /,(.)$/; $_ = ord($_) } @arr );
}

复制代码

sunzhiguolu 发表于 2017-06-21 18:41
回复 16# 523066680
大神的功力果然是非同凡响，我是小白。
有几个问题向大神请教，还请帮忙指点，谢谢。 ...

sunzhiguolu 发表于 2017-06-21 21:53
回复 30# 523066680
":>raw" 这个方式我一直都搞不太明白和普通的 ">" 区别在哪里？
大神能否给个示例代 ...

Windows19 发表于 2017-06-21 21:58
我以为是523066680老师上菜牌了

在 while 循环中
if ($line=~/([a-zA-Z])/) 针对每行的头一个字母字符进行统计？其余的呢，能否解释下剩余部分如何处理？

f
65425855662efssaezsdfcsf//sff.sdf/'s;f]\sDed33dds3
65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33sdds1
efssaezsdfcsf//58969752sff.sdf/'s;f]\sDed33sds0
efssaezsdfcsf/       58969752/sff.sdf/'s;f]  \sDed33sdds5
65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33s00000000
65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com

sdf
65425855662efssaezsdfcsf//sff.sdf/'s;f]\sDed33dds3
65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33sdds1
efssaezsdfcsf//58969752sff.sdf/'s;f]\sDed33sds0
efssaezsdfcsf/       58969752/sff.sdf/'s;f]  \sDed33sdds5
65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33s00000000

efssaezsdfcsf
65425855662efssaezsdfcsf//sff.sdf/'s;f]\sDed33dds3
65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33sdds1
efssaezsdfcsf//58969752sff.sdf/'s;f]\sDed33sds0
efssaezsdfcsf/       58969752/sff.sdf/'s;f]  \sDed33sdds5
65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33s00000000

33
65425855662efssaezsdfcsf//sff.sdf/'s;f]\sDed33dds3
65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33sdds1
efssaezsdfcsf//58969752sff.sdf/'s;f]\sDed33sds0
efssaezsdfcsf/       58969752/sff.sdf/'s;f]  \sDed33sdds5
65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33s00000000

s
65425855662efssaezsdfcsf//sff.sdf/'s;f]\sDed33dds3
65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33sdds1
efssaezsdfcsf//58969752sff.sdf/'s;f]\sDed33sds0
efssaezsdfcsf/       58969752/sff.sdf/'s;f]  \sDed33sdds5
65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33s00000000

sDed
65425855662efssaezsdfcsf//sff.sdf/'s;f]\sDed33dds3
65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33sdds1
efssaezsdfcsf//58969752sff.sdf/'s;f]\sDed33sds0
efssaezsdfcsf/       58969752/sff.sdf/'s;f]  \sDed33sdds5
65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33s00000000

sff
65425855662efssaezsdfcsf//sff.sdf/'s;f]\sDed33dds3
65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33sdds1
efssaezsdfcsf//58969752sff.sdf/'s;f]\sDed33sds0
efssaezsdfcsf/       58969752/sff.sdf/'s;f]  \sDed33sdds5
65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33s00000000

65425855662
65425855662efssaezsdfcsf//sff.sdf/'s;f]\sDed33dds3
65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33sdds1
65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33s00000000
65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com

5
yjyjgwwwghfg56www g.tgjgcom445.5454.'55.4l5
efssaezsdfcsf/       58969752/sff.sdf/'s;f]  \sDed33sdds5
65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com

www
yjyjgwwwghfg56www g.tgjgcom445.5454.'55.4l5
65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com

58969752
efssaezsdfcsf//58969752sff.sdf/'s;f]\sDed33sds0
efssaezsdfcsf/       58969752/sff.sdf/'s;f]  \sDed33sdds5

sdds
65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33sdds1
efssaezsdfcsf/       58969752/sff.sdf/'s;f]  \sDed33sdds5

g
yjyjgwwwghfg56www g.tgjgcom445.5454.'55.4l5
65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com

dds
65425855662efssaezsdfcsf//sff.sdf/'s;f]\sDed33dds3

56
yjyjgwwwghfg56www g.tgjgcom445.5454.'55.4l5

fsfsf
65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com

l
yjyjgwwwghfg56www g.tgjgcom445.5454.'55.4l5

sds
efssaezsdfcsf//58969752sff.sdf/'s;f]\sDed33sds0

1
65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33sdds1

com
65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com

yjyjgwwwghfg
yjyjgwwwghfg56www g.tgjgcom445.5454.'55.4l5

445
yjyjgwwwghfg56www g.tgjgcom445.5454.'55.4l5

tgjgcom
yjyjgwwwghfg56www g.tgjgcom445.5454.'55.4l5

e
65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com

x
65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com

3
65425855662efssaezsdfcsf//sff.sdf/'s;f]\sDed33dds3

54
65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com

r
65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com

ftfr
65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com

55
yjyjgwwwghfg56www g.tgjgcom445.5454.'55.4l5

ty
65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com

efs
65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com

saezsdf
65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com

grytryg
65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com

t
65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com

00000000
65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33s00000000

4
yjyjgwwwghfg56www g.tgjgcom445.5454.'55.4l5

0
efssaezsdfcsf//58969752sff.sdf/'s;f]\sDed33sds0

5454
yjyjgwwwghfg56www g.tgjgcom445.5454.'55.4l5

6
65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com

523066680 发表于 2017-06-22 11:43
回复 57# Windows19

30的代码早就不行了，只针对你化简的问题（仅以开头出现的字母作为统计依据），而 ...

=info
Code by 523066680
2017-06
=cut
#!/usr/bin/perl
use Fcntl;
use DB_File;
use IO::Handle;
use Data::Dumper;
use Time::HiRes qw/sleep/;
STDOUT->autoflush(1);
our $SRC = "D:/A.txt";
our $DST = "D:/Final.txt";
our $FH_SRC;
our $FH_DST;
our $DB_KEY = "F:/keywords.dat";
our $DB_LINE = "F:/lines.dat";
our $DB_OFFSET = "F:/line_offset.dat";
our $DB_SORT = "F:/sort.dat";
our $fold = "D:/tempfolder_words"; #尽可能独立的目录名称
our %keywords;
our @lines;
our @offset; #保存每一行的索引位置+长度
our %rank; #每行的元素次数信息
unlink $DB_KEY;
unlink $DB_LINE;
unlink $DB_OFFSET;
unlink $DB_SORT;
tie %keywords, "DB_File", $DB_KEY, O_WRONLY|O_CREAT, 0666, $DB_BTREE or die $!;
tie @lines, "DB_File", $DB_LINE, O_WRONLY|O_CREAT, 0666, $DB_RECNO or die $!;
tie @offset, "DB_File", $DB_OFFSET, O_WRONLY|O_CREAT, 0666, $DB_RECNO or die $!;
# 排序函数设置
$DB_BTREE->{'compare'} = \&Compare ;
tie %rank, "DB_File", $DB_SORT, O_WRONLY|O_CREAT, 0666, $DB_BTREE or die $!;
#our %rank; #等级索引
LOAD_DATA:
{
print "Loading ... \n";
open $FH_SRC, "<:raw", $SRC or die $!;
my $filesize = -s $SRC;
my $curr = 0;
my $prev = 0;
my $time_a = time();
my $percent;
#每行的偏移量
my $offsetA = 0;
my $offsetB;
my @parts;
#单行的重复关键词判断
my %inline;
while ( my $line = <$FH_SRC>)
{
#next if ($line=~/^\s*\r?\n$/); #排除空行
%inline = ();
@parts = $line =~/([a-zA-Z]+|[\d]+)/g;
#累积关键字出现的次数
for my $e (@parts)
{
if ( not exists $keywords{$e} ) { $keywords{$e} = 1 }
else { $keywords{$e}++ if (not exists $inline{$e}) }
$inline{$e} = 1;
}
#每行的关键字数据
push @lines, join(",", keys %inline);
#每行的偏移量和长度信息
$offsetB = tell( $FH_SRC );
push @offset, join(",", $offsetA, $offsetB - $offsetA);
#更新起点位置
$offsetA = tell( $FH_SRC );
$curr = $offsetA / $filesize * 100.0;
if ( ($curr - $prev) > 1.0 )
{
print ".";
$prev = $curr;
}
}
print "\n";
close $FH_SRC;
printf "Time use: %s seconds\n", time()- $time_a;
}
ANALYSE_AND_SORT:
{
my $time_a = time();
print "Sorting key of each line ... \n";
#利用 DB_File 机制排序
for my $idx ( 0 .. $#lines )
{
# key = 行号，每个关键字的次数（从大到小）
$key = join ( ",", $idx,
reverse sort { $a <=> $b } map { $keywords{$_} } split(",", $lines[$idx])
);
# value = 该行的位置索引
$rank{$key} = $offset[$idx];
}
printf "Time use: %s seconds\n", time()- $time_a;
}
FINAL_OUTPUT:
{
print "Almost finish\n";
my $time_a = time();
my ($k, $v);
my ($site, $len);
my $buff;
open $FH_SRC, "<:raw", $SRC or die $!;
open $FH_DST, ">:raw", $DST or die $!;
while ( ($k, $v) = each %rank )
{
($site, $len) = split(",", $v);
seek($FH_SRC, $site, 0);
read($FH_SRC, $buff, $len);
$buff=~s/\r?\n$//;
print $FH_DST $buff,"\r\n";
}
close $FH_SRC;
close $FH_DST;
printf "Time use: %s seconds\n", time() - $time_a;
untie %keywords;
untie @lines;
untie @offset;
untie %rank;
}
sub Compare
{
my ($ka, $kb) = @_ ;
my @ar = split(",", $ka);
my @br = split(",", $kb);
my $i = 1;
while ( ($ar[$i] <=> $br[$i] ) == 0
and $#ar > $i
and $#br > $i
#and $i < 3
) { $i++; }
$br[$i] <=> $ar[$i] || $#br <=> $#ar || $br[0] <=> $ar[0];
#如果最后一位相同，比较元素数量；如果数量相同，按下标大小排列
}
__END__

复制代码