- 论坛徽章:
- 381
|
本帖最后由 chenyx 于 2011-12-20 09:46 编辑
hadoop的应用前景主要集中在高密度,海量数据的存储以及数据的处理.
Hadoop是一个通用的工具,它让新用户可以享受到分布式计算的好处。通过采用分布式存储、迁移代码而非迁移数据,Hadoop在处理大数据集时避免了耗时的数据传输问题。此外,数据冗余机制允许Hadoop从单点失效中恢复。你已经看到在Hadoop中使用MapReduce框架编写程序非常方便,而且同等重要的是,此时你不必担心如何分割数据、如何分配任务执行节点,或者如何管理节点间的通信。Hadoop为你处理这些事务,使你可以专注于那些最重要的事情——你的数据以及你想用它做什么。
从样章里面,我们可以看到,hadoop的应用,主要是集中在海量数据的处理.
鉴于Hadoop是一个数据处理框架,而在当前大多数应用中数据处理的主力是标准的关系数据库,那又是什么使得Hadoop更具优势呢?其中一个原因是,SQL(结构化查询语言)是针对结构化数据设计的,而Hadoop最初的许多应用针对的是文本这种非结构化数据。从这个角度来看,Hadoop比SQL提供了一种更为通用的模式。
若只针对结构化数据处理,则需要做更细致的比较。原则上,SQL和Hadoop可以互补,因为SQL是一种查询语言,它可将Hadoop作为其执行引擎[1]。但实际上,SQL数据库往往指代一整套传统技术,通过几个主要的厂商,面向一组历史悠久的应用进行优化。许多这些现有的商业数据库无法满足Hadoop设计所面向的需求。
数据超过一定的数量,传统的基于关系型Sql的传统数据库产品,就会显得力不存心了.从书中选取的实例,就可以看出,hadoop面向的领域,是数据量处于非常大的公司,对"无关"数据的处理,普通的基于关系型模型的sql产品就没有办法了. |
|