123 / 3 页下一页

大数据去重复,求速度 [复制链接]

不能超过15字

稍有积蓄

论坛徽章:: 1

11楼 [报告]

发表于 2014-05-22 14:19 |只看该作者

sort -u 不行嘛

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

timespace

大富大贵

论坛徽章:: 11

12楼 [报告]

发表于 2014-05-22 14:24 |只看该作者

当标准方法不能一步到位时，也可以考虑分而治之。具体如何划分取决于第一列数值的分布，比如以取模（第一列数值 % 10）来划为10个文件，每个文件的去重相互独立独立，最后合并。这个文件大小对于磁盘连续IO是没有压力的，但可以极大缓解内存的不足。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

MMMIX

广告杀手

论坛徽章:: 95

13楼 [报告]

发表于 2014-05-22 14:51 |只看该作者

回复 9# gongyonghui2

照理说，6G内存的机器处理这个数据文件不成问题。你用的是 64-bit 操作系统吧？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

MMMIX

广告杀手

论坛徽章:: 95

14楼 [报告]

发表于 2014-05-22 15:02 |只看该作者

本帖最后由 MMMIX 于 2014-05-22 15:03 编辑

回复 12# timespace

另外一个方法就是直接弄个数据库，把数据导入数据库，再导出就行了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

timespace

大富大贵

论坛徽章:: 11

15楼 [报告]

发表于 2014-05-22 15:28 |只看该作者

本帖最后由 timespace 于 2014-05-22 19:47 编辑

回复 14# MMMIX
惭愧，很久不用perl，理解错需求了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

RE_HASH

小富即安

论坛徽章:: 6

16楼 [报告]

发表于 2014-05-22 21:37 |只看该作者

试试先用perl排序每行的三个数，再sort -u

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

timespace

大富大贵

论坛徽章:: 11

17楼 [报告]

发表于 2014-05-23 18:18 |只看该作者

这帖子没结果了。。。
好奇之下，下了LZ的数据文件，解压2.5GB，还好电脑内存16GB，按照前面你们的perl代码执行前50M行（总数的1/3），物理内存占用超过6GB，意味着全部数据16GB内存都可能hold不住：

$ head -50000000 tt1.txt | ./reduce.pl
PID %CPU %MEM RSS NSWAP ELAPSED COMM
479 99.1 40.0 6711876 - 01:34 /usr/bin/perl

复制代码

其实看这个50M，只要内存够，执行时间1分34秒，还能等。

把原文件按照每行排序后的最大数字，模11，分为11个文件，每个文件行数分布比较均匀：

#!/usr/bin/perl
use strict;
use warnings;
my $modulo = 11;
my @files = ();
for (0 .. $modulo-1) {
open $files[$_], ">", "map_$_.txt"
or die "could not open map_$_.txt: $!";
}
while (<>) {
chomp;
my ($f1, $f2, $f3) = sort {$a <=> $b} split /\t/;
print {$files[$f3 % $modulo]} "$f1\t$f2\t$f3\n";
}

复制代码

13282037 13358435 13856488 13894659 13915435 14064033 14125693 14858455 14869804 15549080 16652976

复制代码

最后对每个文件再运行你们的perl代码，生成11个新的文件就是最终结果，wc统计了下，重复行不到1%，印证了开始的想法，16GB内存都搞不定，必须切割小文件处理。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

gongyonghui2

白手起家

论坛徽章:: 1

18楼 [报告]

发表于 2014-05-23 19:40 |只看该作者

回复 17# timespace

非常感谢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

gongyonghui2

白手起家

论坛徽章:: 1

19楼 [报告]

发表于 2014-05-23 19:48 |只看该作者

谢谢大家，此贴收尾

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

MMMIX

广告杀手

论坛徽章:: 95

20楼 [报告]

发表于 2014-05-23 21:36 |只看该作者

回复 17# timespace

不科学呀，这内存占用的也太多了点。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

123 / 3 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › 大数据去重复,求速度

大数据去重复,求速度 [复制链接]

浏览过的版块