1 2 3 4 5 67 / 7 页

论坛徽章:: 22

61楼 [报告]

发表于 2017-06-22 12:24 |只看该作者

回复 60# 523066680

3q加了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

523066680

富足长乐

论坛徽章:: 12

62楼 [报告]

发表于 2017-06-22 21:23 |只看该作者

本帖最后由 523066680 于 2017-06-23 09:25 编辑

新学了一个模块 - DB_File，不熟练。
优点：占用内存少
缺点：特别耗时

处理机制：参考63楼

=info
Code by 523066680
2017-06
=cut
#!/usr/bin/perl
use Fcntl;
use DB_File;
use IO::Handle;
use Data::Dumper;
use Time::HiRes qw/sleep/;
STDOUT->autoflush(1);
our $SRC = "D:/A.txt";
our $DST = "D:/Final.txt";
our $FH_SRC;
our $FH_DST;
our $DB_KEY = "F:/keywords.dat";
our $DB_LINE = "F:/lines.dat";
our $DB_OFFSET = "F:/line_offset.dat";
our $DB_SORT = "F:/sort.dat";
our $fold = "D:/tempfolder_words"; #尽可能独立的目录名称
our %keywords;
our @lines;
our @offset; #保存每一行的索引位置+长度
our %rank; #每行的元素次数信息
unlink $DB_KEY;
unlink $DB_LINE;
unlink $DB_OFFSET;
unlink $DB_SORT;
tie %keywords, "DB_File", $DB_KEY, O_WRONLY|O_CREAT, 0666, $DB_BTREE or die $!;
tie @lines, "DB_File", $DB_LINE, O_WRONLY|O_CREAT, 0666, $DB_RECNO or die $!;
tie @offset, "DB_File", $DB_OFFSET, O_WRONLY|O_CREAT, 0666, $DB_RECNO or die $!;
# 排序函数设置
$DB_BTREE->{'compare'} = \&Compare ;
tie %rank, "DB_File", $DB_SORT, O_WRONLY|O_CREAT, 0666, $DB_BTREE or die $!;
#our %rank; #等级索引
LOAD_DATA:
{
print "Loading ... \n";
open $FH_SRC, "<:raw", $SRC or die $!;
my $filesize = -s $SRC;
my $curr = 0;
my $prev = 0;
my $time_a = time();
my $percent;
#每行的偏移量
my $offsetA = 0;
my $offsetB;
my @parts;
#单行的重复关键词判断
my %inline;
while ( my $line = <$FH_SRC>)
{
#next if ($line=~/^\s*\r?\n$/); #排除空行
%inline = ();
@parts = $line =~/([a-zA-Z]+|[\d]+)/g;
#累积关键字出现的次数
for my $e (@parts)
{
if ( not exists $keywords{$e} ) { $keywords{$e} = 1 }
else { $keywords{$e}++ if (not exists $inline{$e}) }
$inline{$e} = 1;
}
#每行的关键字数据
push @lines, join(",", keys %inline);
#每行的偏移量和长度信息
$offsetB = tell( $FH_SRC );
push @offset, join(",", $offsetA, $offsetB - $offsetA);
#更新起点位置
$offsetA = tell( $FH_SRC );
$curr = $offsetA / $filesize * 100.0;
if ( ($curr - $prev) > 1.0 )
{
print ".";
$prev = $curr;
}
}
print "\n";
close $FH_SRC;
printf "Time use: %s seconds\n", time()- $time_a;
}
ANALYSE_AND_SORT:
{
my $time_a = time();
print "Sorting key of each line ... \n";
#利用 DB_File 机制排序
for my $idx ( 0 .. $#lines )
{
# key = 行号，每个关键字的次数（从大到小）
$key = join ( ",", $idx,
reverse sort { $a <=> $b } map { $keywords{$_} } split(",", $lines[$idx])
);
# value = 该行的位置索引
$rank{$key} = $offset[$idx];
}
printf "Time use: %s seconds\n", time()- $time_a;
}
FINAL_OUTPUT:
{
print "Almost finish\n";
my $time_a = time();
my ($k, $v);
my ($site, $len);
my $buff;
open $FH_SRC, "<:raw", $SRC or die $!;
open $FH_DST, ">:raw", $DST or die $!;
while ( ($k, $v) = each %rank )
{
($site, $len) = split(",", $v);
seek($FH_SRC, $site, 0);
read($FH_SRC, $buff, $len);
$buff=~s/\r?\n$//;
print $FH_DST $buff,"\r\n";
}
close $FH_SRC;
close $FH_DST;
printf "Time use: %s seconds\n", time() - $time_a;
untie %keywords;
untie @lines;
untie @offset;
untie %rank;
}
sub Compare
{
my ($ka, $kb) = @_ ;
my @ar = split(",", $ka);
my @br = split(",", $kb);
my $i = 1;
while ( ($ar[$i] <=> $br[$i] ) == 0
and $#ar > $i
and $#br > $i
#and $i < 3
) { $i++; }
$br[$i] <=> $ar[$i] || $#br <=> $#ar || $br[0] <=> $ar[0];
#如果最后一位相同，比较元素数量；如果数量相同，按下标大小排列
}
__END__

复制代码

评分

参与人数 1	信誉积分 +10	收起理由
Windows19	+ 10	再赏

查看全部评分

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

523066680

富足长乐

论坛徽章:: 12

63楼 [报告]

发表于 2017-06-22 23:12 |只看该作者

本帖最后由 523066680 于 2017-06-23 15:04 编辑

以原贴的段落为例，
[0]65425855662efssaezsdfcsf//sff.sdf/'s;f]\sDed33dds3
[1]65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33sdds1
[2]yjyjgwwwghfg56www g.tgjgcom445.5454.'55.4l5
[3]efssaezsdfcsf//58969752sff.sdf/'s;f]\sDed33sds0
[4]efssaezsdfcsf/       58969752/sff.sdf/'s;f]  \sDed33sdds5
[5]65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33s00000000
[6]65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com

处理结果：
[1]65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33sdds1
[0]65425855662efssaezsdfcsf//sff.sdf/'s;f]\sDed33dds3
[5]65425855662efssaezsdfcsf/       /sff.sdf/'s;f]  \sDed33s00000000
[4]efssaezsdfcsf/       58969752/sff.sdf/'s;f]  \sDed33sdds5
[3]efssaezsdfcsf//58969752sff.sdf/'s;f]\sDed33sds0
[6]65425855662efs\saezsdf][grytryg*f-x+f5g5ty'5t;54r]\5/e.,6ftfr//www.fsfsf.com
[2]yjyjgwwwghfg56www g.tgjgcom445.5454.'55.4l5

每行的关键字在全文中出现的次数统计（单行内多次计为一次）
f(6),efssaezsdfcsf(5),sff(5),s(5),sDed(5),33(5),sdf(5),65425855662(4),3(1),dds(1)
f(6),s(5),sff(5),efssaezsdfcsf(5),33(5),sdf(5),sDed(5),65425855662(4),sdds(2),1(1)
5(3),g(2),www(2),yjyjgwwwghfg(1),56(1),445(1),tgjgcom(1),4(1),l(1),5454(1),55(1)
f(6),33(5),sdf(5),sDed(5),s(5),sff(5),efssaezsdfcsf(5),58969752(2),0(1),sds(1)
f(6),efssaezsdfcsf(5),sff(5),s(5),sDed(5),33(5),sdf(5),5(3),sdds(2),58969752(2)
f(6),efssaezsdfcsf(5),s(5),sff(5),sDed(5),sdf(5),33(5),65425855662(4),00000000(1)
f(6),65425855662(4),5(3),g(2),www(2),x(1),ftfr(1),e(1),com(1),54(1),t(1),ty(1),fsfsf(1),grytryg(1),efs(1),r(1),6(1),saezsdf(1)

处理后的顺序（按行排序，从最高的频率开始对比；如果最高的次数相同，则对比第二列，以此类推）
f(6),s(5),sff(5),efssaezsdfcsf(5),33(5),sdf(5),sDed(5),65425855662(4),sdds(2),1(1)
f(6),efssaezsdfcsf(5),sff(5),s(5),sDed(5),33(5),sdf(5),65425855662(4),3(1),dds(1)
f(6),efssaezsdfcsf(5),s(5),sff(5),sDed(5),sdf(5),33(5),65425855662(4),00000000(1)
f(6),efssaezsdfcsf(5),sff(5),s(5),sDed(5),33(5),sdf(5),5(3),sdds(2),58969752(2)
f(6),33(5),sdf(5),sDed(5),s(5),sff(5),efssaezsdfcsf(5),58969752(2),0(1),sds(1)
f(6),65425855662(4),5(3),g(2),www(2),x(1),ftfr(1),e(1),com(1),54(1),t(1),ty(1),fsfsf(1),grytryg(1),efs(1),r(1),6(1),saezsdf(1)
5(3),g(2),www(2),yjyjgwwwghfg(1),56(1),445(1),tgjgcom(1),4(1),l(1),5454(1),55(1)

纯数字，前后对比：
Before:
[0]6,5,5,5,5,5,5,4,1,1
[1]6,5,5,5,5,5,5,4,2,1
[2]3,2,2,1,1,1,1,1,1,1,1
[3]6,5,5,5,5,5,5,2,1,1
[4]6,5,5,5,5,5,5,3,2,2
[5]6,5,5,5,5,5,5,4,1
[6]6,4,3,2,2,1,1,1,1,1,1,1,1,1,1,1,1,1

After
[1]6,5,5,5,5,5,5,4,2,1
[0]6,5,5,5,5,5,5,4,1,1
[5]6,5,5,5,5,5,5,4,1
[4]6,5,5,5,5,5,5,3,2,2
[3]6,5,5,5,5,5,5,2,1,1
[6]6,4,3,2,2,1,1,1,1,1,1,1,1,1,1,1,1,1
[2]3,2,2,1,1,1,1,1,1,1,1

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Windows19

富足长乐

论坛徽章:: 22

64楼 [报告]

发表于 2017-06-23 08:57 |只看该作者

回复 62# 523066680

嗯嗯  测试后基本正确  就是效率有点慢,  100m耗时59分钟左右  如果要处理超过100g  估计也得1个月左右
能否加快一点时间?  比如使用多线程处理  现在好像只用1个cpu来处理使用多线程处理效率会不会再快些?

如果能优化效率就太好了

辛苦了  再赏

测试文件97.0 MB耗时
$ perl 123
Loading ...
Time: 538 seconds
Sorting key of each line ...
Almost finish
Time: 1391 seconds

麻烦在有空闲时间抽空关注一下看看能不能再改进一下  谢谢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

523066680

富足长乐

论坛徽章:: 12

65楼 [报告]

发表于 2017-06-23 09:27 |只看该作者

本帖最后由 523066680 于 2017-06-23 10:08 编辑

回复 64# Windows19

是在服务器跑吗，如果是100G，会生成大约 600G 的临时文件。
如果每行只取一个频率最高的词作为代表（其他低频率不考虑，可以加快）

比如这两行的每个关键字的频率列表：
[5]6,5,5,5,5,5,5,4,1
[6]6,4,3,2,2,1,1,1,1,1,1,1,1,1,1,1,1,1

如果只对比开头，都是6次，这两项数据并排，后面的不再对比。

-

不懂多线程 -_-

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Windows19

富足长乐

论坛徽章:: 22

66楼 [报告]

发表于 2017-06-23 10:44 |只看该作者

523066680 发表于 2017-06-23 09:27
回复 64# Windows19

是在服务器跑吗，如果是100G，会生成大约 600G 的临时文件。

嗯嗯，ok 还是老师你的意路灵活，

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

hztj2005

家境小康

论坛徽章:: 0

67楼 [报告]

发表于 2017-06-23 22:36 |只看该作者

这是个大工程，向523066680学习下。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

csccyab

小富即安

论坛徽章:: 0

68楼 [报告]

发表于 2019-01-31 16:33 |只看该作者

本帖最后由 csccyab 于 2019-01-31 16:37 编辑

Python

import re, collections, operator
str_dict = collections.defaultdict(list)
line_number = 0
lines_printed = []
f = open("1.txt")
for line in f:
line_number += 1
for str in re.findall('[a-zA-Z]', line):
str_dict[str].append(line_number)
str_dict_sorted = { i: str_dict[i] for i in sorted(str_dict, key = lambda k: len(str_dict[k]), reverse=True) }
f.close()
for the_key, the_value in str_dict_sorted.items():
for i in the_key:
for j in str_dict_sorted[i]:
with open("1.txt") as file:
for ln, l in enumerate(file):
if ln+1 == j and ln not in lines_printed:
print (l.strip())
lines_printed.append(ln)

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 2 3 4 5 67 / 7 页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › 字符串排序

字符串排序 [复制链接]

评分