免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: Gray1982
打印 上一主题 下一主题

[Hadoop&HBase] 【讨论】海量数据分析之Hadoop(获奖名单已公布-2012-5-28) [复制链接]

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
1 [报告]
发表于 2012-05-11 14:20 |显示全部楼层
Hadoop源自Google的论文MapReduce,其底层文件系统可以是任意,但目前主要是HDFS,MapReduce原理还是比较简单,就是采用并行处理的思想:
1、首先将要处理的数据分成多个大小一致的数据块,每一个任务处理一个数据块,处理函数是用户自定义的map函数,入参是看K/V对,出参可以K/V对,参数类型可以由用户自己定义;
2、MAP处理的数据保存在本地(根据reduce任务个数和key进行hash用于后续的分发),处理完成后通知master,再由master通知reduce节点来请求其需要的数据段,等所有的map节点都处理完成后,reduce节点就能获取所有的需要处理的数据,调用用户自定义的reduce函数进行处理,同时将输出结果写入HDFS

hadoop一般用于批处理非实时数据分析,其优点是为用户提供通用的分布式系统框架,不需要编程人员来处理复杂的分布式故障处理等操作,缺点是用户自己需要编程(编写map、reduce的业务处理),另外就是hadoop性能方面不是太好
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP