论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2012-02-13 19:58 |只看该作者 |倒序浏览

本帖最后由 xxhacker 于 2012-02-13 19:59 编辑

我有一个用户列表，一个uid为一行，总共有数亿行之多，自己参考网上写了一个代码如下，如果行数小于几百万行的话，程序执行起来没有什么问题，但是一旦到了上亿行，这程序就特别的吃系统资源，主要是把读入的内容全部放到数组里去了，大家有没有什么更好的办法了？

#! /usr/bin/perl -w
use strict;
use Getopt::Long;
my $number;
my %hash;
GetOptions("number=n" => \$number);
die usage() unless $number;
my @array = <>;
while ((keys %hash < $number)){
$hash{int(rand($#array))} = 1;
}
open FH,"> $number.txt" or die "Can't Write File:$!\n";
print FH $array[$_] for keys %hash;
close FH;
sub usage {
my $PROG = $0;
print <<EOF;
USAGE
cat xxx|$PROG OPTIONS
OPTIONS:
--number|n number lines
EOF
}

复制代码

文库|博客

zhlong8

版主

论坛徽章:: 46

2楼 [报告]

发表于 2012-02-13 20:40 |只看该作者

每读一行都 rand 下看要还是不要（比如100万个抽100个，那就是 rand() < 100/100万就取），直到抽满为止，如果读完了还不够就拿最后几个顶替。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

xxhacker

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2012-02-13 21:05 |只看该作者

回复 2# zhlong8
版主说的也是一个思路，关键一点是我不知道这个文件有多少行数据，就意味着rand()<$NUM这个值不定，当然可以先用cat xxx|wc -l来取得行数，不过这样搞就太麻烦了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zhlong8

版主

论坛徽章:: 46

4楼 [报告]

发表于 2012-02-13 21:37 |只看该作者

xxhacker 发表于 2012-02-13 21:05
回复 2# zhlong8
版主说的也是一个思路，关键一点是我不知道这个文件有多少行数据，就意味着rand()

按文件大小估算下总没问题吧，你的数据不是很规律吗

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

RE_HASH

小富即安

论坛徽章:: 6

5楼 [报告]

发表于 2012-02-13 22:22 |只看该作者

If you data is too big to fit in memory you can search for QDBM or Tokyo cabinet such that you can save the data in a hash on disk and then tie it in memory.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

twilightagain

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2012-02-14 04:15 |只看该作者

本帖最后由 twilightagain 于 2012-02-14 04:19 编辑

使用标准模块Tie::File。

这个模块不会把数据一次读入内存，就是为了楼主这类问题设计的

Tie::File represents a regular text file as a Perl array. Each element in the array corresponds to a record in the file. The first line of the file is element 0 of the array; the second line is element 1, and so on.
The file is not loaded into memory, so this will work even for gigantic files.

以上摘自文档的description部分

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

xxhacker

白手起家

论坛徽章:: 0

7楼 [报告]

发表于 2012-02-14 12:54 |只看该作者

谢谢6楼推荐的模块，我刚才用这个模块跑了一下，确实不怎么占资源，不过跑起来就比较慢了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › 数亿行数据随机抽取的效率问题

数亿行数据随机抽取的效率问题 [复制链接]