1 2 3 4 56 / 6 页

论坛徽章:: 0

51楼 [报告]

发表于 2010-05-14 15:03 |只看该作者

我测了真的这么大。。。。
也许从思路上就错了根本不该那么做的。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

guap514

丰衣足食

论坛徽章:: 0

52楼 [报告]

发表于 2010-05-14 15:10 |只看该作者

我测了真的这么大。。。。
也许从思路上就错了根本不该那么做的。
DQP 发表于 2010-05-14 15:03

O_o
不会是也像lz那样把60M的文件都分割成数组吧

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

toniz

富足长乐

论坛徽章:: 0

53楼 [报告]

发表于 2010-05-14 15:12 |只看该作者

回复 50# guap514

好吧  楼主很懒  我只能做苦力了。

用这个代码创建一个校验文件。命令行是：perl b.pl t.t  >cd.log
t.t是：-rw-rw-r-- 1 etl  etl    320843 May 14 14:46 t.t

$/=\1;
my $i=1;
while(<>){
print $_." ".$i++ ."\n";
}

复制代码

运行之后得到一个校验文件:cd.log。这是我懒得去弄，就直接全字符检验了。这个检验文件够大了吧，。

好吧，下面的代码开始测试：

use Time::HiRes qw(gettimeofday);
my ($start_sec, $start_usec) = gettimeofday;
use Data::Dumper;
$o=$/;
$/=\1;
@a=<>;
open F,"cd.log" or die "asdfasf";
$/=$o;
while(<F>){
@b=split /\s+/,$_;
if($a[$b[1]-1] != $b[0] ){
print "$b[0] $b[1] not eq \n";
}
}
my ($end_sec, $end_usec) = gettimeofday;
my $time_used = ($end_sec - $start_sec) + ($end_usec - $start_usec)/1000000;
printf("time used : %.10f\n", $time_used);

复制代码

这个是测试楼组的用数组下标检索判断的。消耗时间如下：

[etl@dmtest bidm]$ perl b.pl t.t
time used : 1.1311360000

复制代码

之后是substr的。

use Time::HiRes qw(gettimeofday);
my ($start_sec, $start_usec) = gettimeofday;
$o=$/;
$/='';
$a=<>;
open F,"cd.log" or die "asdfasf";
$/=$o;
while(<F>){
@b=split /\s+/,$_;
if(substr($a,$b[1]-1,1) != $b[0] ){
print "$b[0] $b[1] ".substr($a,$b[1],1)." not eq \n";
}
}
my ($end_sec, $end_usec) = gettimeofday;
my $time_used = ($end_sec - $start_sec) + ($end_usec - $start_usec)/1000000;
printf("time used : %.10f\n", $time_used);

复制代码

消耗时间是：

[etl@dmtest bidm]$ perl b.pl t.t
time used : 0.8436160000

复制代码

所以说，是选错的方法，不是perl不行。。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

DQP

富足长乐

论坛徽章:: 0

54楼 [报告]

发表于 2010-05-14 15:12 |只看该作者

我还真这么干了。。。刚开始是不知道他想要什么

p.s.我的100M 的. 增长到4G 时就out of memory了。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

glauke

稍有积蓄

论坛徽章:: 0

55楼 [报告]

发表于 2010-05-14 18:05 |只看该作者

回复 53# toniz

好人啊！感激涕零！太谢谢啦！

你的热心鼓舞了我又做了测试，的确是substr很快，但我想主要是快在不用split存数组那儿吧，至于查找的速度按下标还是substr是应该差不多的。

另外你的程序有几点还有待优化啊：

你做的存数组的那个测试，直接@a = <>会比while(<>){push @a, $_;}耗的内存要大很多。

至于substr那个测试，应该加上一句s/\n//g把\n去掉，不然结果会不对的。

总之谢谢大侠的热心帮助拉！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

rick.zhao

小富即安

论坛徽章:: 0

56楼 [报告]

发表于 2010-05-16 19:08 |只看该作者

学习了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

deathcult

家境小康

论坛徽章:: 0

57楼 [报告]

发表于 2010-05-16 22:58 |只看该作者

你可以每读一段，就分割、处理、放入内存。这样效率比较高。

用ps u -C <test.pl> 来监控你的程序内存使用情况。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

toniz

富足长乐

论坛徽章:: 0

58楼 [报告]

发表于 2010-05-17 09:23 |只看该作者

本帖最后由 toniz 于 2010-05-17 09:51 编辑

回复 55# glauke

我就随手写的测试脚本，你居然还挑我错误呜。。。。

不过想想还是解释下哈：

@a = <>我用这个是为了保证测试代码的结构和使用的方法一致。因为你注意没有？substr测试的时候，是把代码整个读入内存的。所以我需要在测试你那种数组下标的方法的时候，也一次读入内存。这样才公平~~

至于换行，呵呵，我的两个脚本把换行当一字符的，所以结果是不会不正确滴。。。当然，如果你自己弄的测试脚本一个算了，一个不算，那就糟糕~~

至于效率慢是慢在分配内存还是慢在下标检索，这个也是可以测试一下的~~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jjqing

稍有积蓄

论坛徽章:: 0

59楼 [报告]

发表于 2011-08-23 15:32 |只看该作者

回复 glauke

我就随手写的测试脚本，你居然还挑我错误呜。。。。

不过想想还是解释下 ...
toniz 发表于 2010-05-17 09:23

toniz令人敬佩！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 2 3 4 56 / 6 页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › 如何控制perl程序的内存？

如何控制perl程序的内存？ [复制链接]