by xuyuanchao_cnu - NoSQL技术 - 2011-12-23 02:39:08 阅读(909) 回复(0)
基于hadoop的大规模数据排序算法
1、1TB(或1分钟)排序的冠军 作为分布式数据处理的框架,集群的数据处理能力究竟有多快?或许1TB排序可以作为衡量的标准之一。 1TB排序,就是对1TB(1024GB,大约100亿行数据)的数据进行排序。2008年,hadoop赢得1TB排序基准评估第一名,排序1TB数据耗时209秒。后来,1TB排序被1分钟排序所取代,1分钟排序指的是在一分钟内尽可能多的排序。2009年,在一个1406个节点组成的hadoop集群,在59秒里对500GB完成了排序;而在1460个节...
Yahoo!研究人员使用hadoop完成了Jim Gray基准排序,此排序包含许多相关的基准,每个基准都有自己的规则。所有的排序基准都是通过测量不同记录的排序时间来制定的,每个记录为100字节,其中前面的10字节是键,剩余的部分是数值。MinuteSort是比较在一分钟内所排序的数据量大小,GraySort是比较在对大规模数据(至少100TB)进行排序时的排序速率(TBs/minute)。基准规则具体如下:
算法和数据挖掘工程师(偏数学方面) 招聘人数:1人 岗位职责: o 社交平台用户行为分析; o 特征值提取与分析; o 建立数学模型对用户行为进行预测。 任职资格: o 计算机、数学、统计或其他相关领域本科或本科以上学历; o 有机器学习或数据挖掘相关工作经验; o 熟悉常用的数据结构和算法; o 有扎实的编程基础,至少能够熟练使用一种编程语言;熟悉python或java的优先; o 有一定的分布式数据...
猎头职位,参考薪资在20k+,30K+不等,具体面议;有意者请将个人简历发至: 有意向者QQ1831193550 MSN [email]wwyy1213@msn.com[/email] 邮箱 [email]wangyi@infinite-thinker.com[/email] 线上联系 PHP经理/架构师 1:PHP开发经验—必须,而且要具备丰富的,懂高并发,懂架构 2:团队管理能力—之前至少要有10人以上团队管理经验(在我们这带50人...