免费注册	查看新帖 \|


平台论坛博客文库

› 论坛 › 程序设计 › Perl › 大数据去重复,求速度

1 23 / 3 页

最近访问板块

发新帖

楼主: gongyonghui2

上一主题

下一主题

大数据去重复,求速度 [复制链接]

论坛徽章:: 89

水瓶座
日期:2014-04-01 08:53:31

天蝎座
日期:2014-04-01 08:53:53

天秤座
日期:2014-04-01 08:54:02

射手座
日期:2014-04-01 08:54:15

子鼠
日期:2014-04-01 08:55:35

辰龙
日期:2014-04-01 08:56:36

未羊
日期:2014-04-01 08:56:27

戌狗
日期:2014-04-01 08:56:13

亥猪
日期:2014-04-01 08:56:02

亥猪
日期:2014-04-08 08:38:58

程序设计版块每日发帖之星
日期:2016-01-05 06:20:00

程序设计版块每日发帖之星
日期:2016-01-07 06:20:00

21楼 [报告]

发表于 2014-05-23 23:51 |只看该作者

这个问题有很多种解决方法，我感觉最好利用数据自身的特点，lz贴出来的数据似乎有些规律性可以利用。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 11

技术图书徽章
日期:2014-03-01 14:44:34

天蝎座
日期:2014-05-21 22:11:59

金牛座
日期:2014-05-30 17:06:14

22楼 [报告]

发表于 2014-05-24 11:51 |只看该作者

本帖最后由 timespace 于 2014-05-24 11:52 编辑

回复 20# MMMIX
是不太科学，从现在的结果也不足以倒推出原因。。。

从Perl官网找到一封1998年的C数据结构文档http://blob.perl.org/tpc/1998/Pe ... Perl%20Illustrated/，如今HASH函数可能不同，但基础数据结构应该还有参考价值，其中hash的实现：

考虑64位系统，load factor（元素个数/buckets）小于1，还没算上hash key字符串内容：

#!/usr/bin/perl
use strict;
use warnings;
# SvNULL (ANY, REFCNT, FLAGS & Type)
my $SvNULL_size = 8*3;
# SvPV (SvNULL, PVX, CUR, LEN)
my $SvPV_size = $SvNULL_size + 8*3;
# SvIV (SvNULL, IVX/NVX)
my $SvIV_size = $SvNULL_size + 8;
# HE (next, hek, val)
my $bucket_size = 8;
my $entry_size = 8*3 + 8*2 + $SvIV_size + $bucket_size;
# HV
my $entrys = 150e6;
my $HV_size_min = $entrys * $entry_size;
printf "hash size %.2f GB\n", $HV_size_min/2**30;

复制代码

输出：

$ ./hash_storage.pl
hash size 11.18 GB

复制代码

在加上原始字符串的2.5GB，那就是13.68GB，基本就是最保守的内存估计了，不过距离真实的19GB+还有不少空白。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 95

程序设计版块每日发帖之星
日期:2015-09-05 06:20:00

程序设计版块每日发帖之星
日期:2015-09-17 06:20:00

程序设计版块每日发帖之星
日期:2015-09-18 06:20:00

2015亚冠之阿尔艾因
日期:2015-09-18 10:35:08

月度论坛发贴之星
日期:2015-09-30 22:25:00

2015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39

程序设计版块每日发帖之星
日期:2015-10-05 06:20:00

每日论坛发贴之星
日期:2015-10-05 06:20:00

2015年亚冠纪念徽章
日期:2015-10-06 10:06:48

2015亚冠之塔什干棉农
日期:2015-10-19 19:43:35

程序设计版块每日发帖之星
日期:2015-10-21 06:20:00

每日论坛发贴之星
日期:2015-09-14 06:20:00

23楼 [报告]

发表于 2014-05-24 13:01 |只看该作者

本帖最后由 MMMIX 于 2014-05-24 13:02 编辑

回复 22# timespace

我拿楼主提供的数据实际测试了一下，16M的数据（无重复），在运行时最多要占用 86M 多的空间，差不多是实际数据的五倍多。这 hash 快是快，可是占用空间也太多了点。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 8

技术图书徽章
日期:2013-08-22 11:21:28

未羊
日期:2015-01-19 22:22:25

巳蛇
日期:2014-08-11 16:53:08

子鼠
日期:2014-05-29 09:04:44

摩羯座
日期:2014-04-11 14:15:07

丑牛
日期:2014-01-24 12:41:28

金牛座
日期:2013-11-21 17:38:28

射手座
日期:2015-01-21 08:50:32

24楼 [报告]

发表于 2014-05-27 16:39 |只看该作者

本帖最后由 huang6894 于 2014-05-27 16:52 编辑

菜鸟来一个~
因为数据太大没下。。自己弄了100W行试了下~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 42

19周年集字徽章-周
日期:2019-10-14 14:35:31

平安夜徽章
日期:2015-12-26 00:06:30

数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00

2015亚冠之首尔
日期:2015-11-04 22:25:43

IT运维版块每日发帖之星
日期:2015-08-17 06:20:00

寅虎
日期:2014-06-04 16:25:27

狮子座
日期:2014-05-12 11:00:00

辰龙
日期:2013-12-20 17:07:19

射手座
日期:2013-10-24 21:01:23

CU十二周年纪念徽章
日期:2013-10-24 15:41:34

IT运维版块每日发帖之星
日期:2016-01-27 06:20:00

15-16赛季CBA联赛之新疆
日期:2016-06-07 14:10:01

25楼 [报告]

发表于 2014-05-27 20:26 |只看该作者

本帖最后由 laputa73 于 2014-05-27 21:30 编辑

回复 23# MMMIX

以前测过redis的内存占用,大约是原始数据的4倍

LZ给出的数据，第一二列重复率极高，应该有优化算法，类似用3层hash替代1层hash的方法（相当于减少了key的总数）。

open IN,"tt1.txt";
open OU,">","result.txt";
my %hash=();
my $line=0;
while(<IN>){
chomp;
my @tmp=sort {$a<=>$b} split /\t/;
$hash{$tmp[0]}{$tmp[1]}{$tmp[2]}++;
#print @tmp;
$line++;
last if $line >10000000;
}
print "sortDone\n";
while(my ($cc)=each %hash){
print OUT $cc,"\n";
}

复制代码

测试了一下，处理前10M行，使用内存440M,1分多钟。
6G内存应该够用。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 46

15-16赛季CBA联赛之四川
日期:2018-03-27 11:59:13

2015年亚洲杯之沙特阿拉伯
日期:2015-04-11 17:31:45

天蝎座
日期:2015-03-25 16:56:49

双鱼座
日期:2015-03-25 16:56:30

摩羯座
日期:2015-03-25 16:56:09

巳蛇
日期:2015-03-25 16:55:30

卯兔
日期:2015-03-25 16:54:29

子鼠
日期:2015-03-25 16:53:59

申猴
日期:2015-03-25 16:53:29

寅虎
日期:2015-03-25 16:52:29

羊年新春福章
日期:2015-03-25 16:51:21

2015亚冠之布里斯班狮吼
日期:2015-07-13 10:44:56

26楼 [报告]

发表于 2014-05-27 20:33 |只看该作者

回复 22# timespace

http://cpansearch.perl.org/src/RURBAN/illguts-0.47/index-18.html

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 11

技术图书徽章
日期:2014-03-01 14:44:34

天蝎座
日期:2014-05-21 22:11:59

金牛座
日期:2014-05-30 17:06:14

27楼 [报告]

发表于 2014-05-27 20:56 |只看该作者

回复 26# zhlong8
太强大了，3ks。扫了一眼，内存确实变得更多了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

28楼 [报告]

发表于 2014-06-30 14:54 |只看该作者

本帖最后由 luwp 于 2014-06-30 14:55 编辑

我以前在linux/unix上是用sort 按指定列排序，然后去重

sort命令本身就是归并排序，你可以看到在tmp疯狂的生产大量的碎片，然后慢慢得到最终结果

sort命令不会把内存弄爆的

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 23 / 3 页

发新帖

Chinaunix › 论坛 › 程序设计 › Perl › 大数据去重复,求速度

北京盛拓优讯信息技术有限公司. 版权所有京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员联系我们：huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP