平台论坛博客文库

› 论坛 › 数据库技术 › NoSQL技术 › 【讨论】海量数据分析之Hadoop（获奖名单已公布-2012-5- ...

[Hadoop&HBase] 【讨论】海量数据分析之Hadoop（获奖名单已公布-2012-5-28） [复制链接]

heguangwu

大富大贵

论坛徽章:: 15

1楼 [报告]

发表于 2012-05-11 14:20 |显示全部楼层

Hadoop源自Google的论文MapReduce，其底层文件系统可以是任意，但目前主要是HDFS，MapReduce原理还是比较简单，就是采用并行处理的思想：
1、首先将要处理的数据分成多个大小一致的数据块，每一个任务处理一个数据块，处理函数是用户自定义的map函数，入参是看K/V对，出参可以K/V对，参数类型可以由用户自己定义；
2、MAP处理的数据保存在本地（根据reduce任务个数和key进行hash用于后续的分发），处理完成后通知master，再由master通知reduce节点来请求其需要的数据段，等所有的map节点都处理完成后，reduce节点就能获取所有的需要处理的数据，调用用户自定义的reduce函数进行处理，同时将输出结果写入HDFS

hadoop一般用于批处理非实时数据分析，其优点是为用户提供通用的分布式系统框架，不需要编程人员来处理复杂的分布式故障处理等操作，缺点是用户自己需要编程（编写map、reduce的业务处理），另外就是hadoop性能方面不是太好

返回列表

Chinaunix › 论坛 › 数据库技术 › NoSQL技术 › 【讨论】海量数据分析之Hadoop（获奖名单已公布-2012-5- ...