ChinaUnix.net
相关文章推荐:

hadoop 默认排序方法

1、1TB(或1分钟)排序的冠军 作为分布式数据处理的框架,集群的数据处理能力究竟有多快?或许1TB排序可以作为衡量的标准之一。 1TB排序,就是对1TB(1024GB,大约100亿行数据)的数据进行排序。2008年,hadoop赢得1TB排序基准评估第一名,排序1TB数据耗时209秒。后来,1TB排序被1分钟排序所取代,1分钟排序指的是在一分钟内尽可能多的排序。2009年,在一个1406个节点组成的hadoop集群,在59秒里对500GB完成了排序;而在1460个节...

by teddylw1611616 - NoSQL技术 - 2011-02-28 21:24:57 阅读(1790) 回复(0)

相关讨论

Yahoo!研究人员使用hadoop完成了Jim Gray基准排序,此排序包含许多相关的基准,每个基准都有自己的规则。所有的排序基准都是通过测量不同记录的排序时间来制定的,每个记录为100字节,其中前面的10字节是键,剩余的部分是数值。MinuteSort是比较在一分钟内所排序的数据量大小,GraySort是比较在对大规模数据(至少100TB)进行排序时的排序速率(TBs/minute)。基准规则具体如下:

  •  输入数据必须与数据...

by 码工 - NoSQL技术 - 2011-12-23 02:32:19 阅读(1318) 回复(0)

“基于hadoop大规模数据排序算法”整体规划-万虎组

组长:
万虎
成员:万虎、牛庆亚、宋思梦、文滔、胡海绅

前言

关于云计算的基础知识请参考上届师兄师姐在 谷...

by xuyuanchao_cnu - NoSQL技术 - 2011-12-23 02:39:08 阅读(908) 回复(0)

by xuyuanchao_cnu - NoSQL技术 - 2011-12-23 02:32:19 阅读(1080) 回复(0)

by xuyuanchao_cnu - NoSQL技术 - 2011-12-23 02:39:08 阅读(1152) 回复(0)

基于hadoop的大规模数据排序算法

by xuyuanchao_cnu - NoSQL技术 - 2011-12-23 02:39:08 阅读(1238) 回复(0)

基于hadoop大规模数据排序算法-万虎组-第...

by xuyuanchao_cnu - NoSQL技术 - 2011-12-23 02:39:08 阅读(1317) 回复(0)

by xuyuanchao_cnu - NoSQL技术 - 2011-12-23 02:39:08 阅读(1172) 回复(0)

                                                                  ...

by xuyuanchao_cnu - NoSQL技术 - 2011-12-23 02:32:19 阅读(1020) 回复(0)

Dataguise日前公布了实施hadoop的十大最佳做法。专业人员可以通过遵循管理隐私风险,数据和安全管理的程序,杜绝敏感数据外泄,降低风险状况,从而更好地满足合规性要求。 通过财富200强企业中的hadoop安全部署经验总结,Dataguise开发出以下十大建议,以确保大型和复杂多样环境下的数据安全。 信息技术工具的日益更新和功能的不断优化成熟,使得大数据的使用变得更具有可行性。然而,这一新技术领域的优势往往还伴随着数据隐私的...

by loveyuqing - 数据安全 - 2013-05-21 11:10:09 阅读(1030) 回复(1)

   Dataguise日前公布了实施hadoop的十大最佳做法。专业人员可以通过遵循管理隐私风险,数据和安全管理的程序,杜绝敏感数据外泄,降低风险状况,从而更好地满足合规性要求。 通过财富200强企业中的hadoop安全部署经验总结,Dataguise开发出以下十大建议,以确保大型和复杂多样环境下的数据安全。 信息技术工具的日益更新和功能的不断优化成熟,使得大数据的使用变得更具有可行性。然而,这一新技术领域的优势往往还伴随着数据...

by Send_linux - 集群和高可用 - 2013-04-24 09:58:06 阅读(1257) 回复(2)