- 论坛徽章:
- 0
|
本帖最后由 yahoon 于 2011-12-04 11:46 编辑
试读了一下,蛮好的一本书,谈谈我的感受先
活动话题:
由于公司现在并没有类似的业务需求,所以暂时还没用,但个人很关注hadoop的发展
首先肯定是部署简单,支持的接口多,结构简单,相关的资源和应用案例很多. 不管是国内还是国际, 资料多,从事相关工作的人员也多. 相对来说比较成熟.
尤其还有各家有能力的厂商做了商业化的二次开发,可见对其扩展也是比较简单的.
最大的优势 也就是对海量非结构化数据的存储和管理,计算.
由于是国人的作品,描述各方面比较符合国人习惯.尤其作者的专业性使得技术描述完全没问题.
有很多类似翻译书籍经常是"外行"翻译专业书籍....后果可想而知
作者先讲理论再讲安装应用,然后讲内部的一些具体实现机制和架构,比较符合以浅入深的规律学习习惯.
支持原创
最后说一点个人观点:
个人觉得hadoop是区别于大家习惯的传统DBMS的一种系统.
传统的DBMS,主要是两方面的功能:
1 是存储数据
2 是处理数据(例如更新,查询,计算等)
但是它有一个很大的弱点就是:
1 对数据大小敏感,通常来数据量小操作快,数据量巨大,性能下降明显(因为通常是单机集中存储),且只能优化或分区,无线性扩展能力
2 对数据格式有严格要求,通常我们用的Rdbms(即关系型数据库)规定数据必须为行与列的集合,只要满足这样苛刻条件的数据才能进行存储和处理
hadoop同样解决的是这两方面的问题,也就是最核心的两个组件:
1 hdfs是解决了存储数据的问题,针对大数据,非结构化数据是亮点
2 map/reduce解决了用户大数据的并行处理
当然与DBMS相比也是有劣势的:
hadoop主要用于大数据集的离线处理
不支持DBMS的OLTP的特性
不支持大家习惯的SQL等
从目前来看,hadoop的着重点并不是分布式存储(共享存储的下一代),而是通过分布式存储来实现分布式计算(即以计算移动而不是数据移动)
这明显有别于其他一些分布式存储如fastDFS,mogileFS,mooseFS以提供高吞吐量的文件读写为指标.更准确的说这些产品是NFS的升级版
hadoop不是万能的,任何的技术本身没有优劣之分,作为一家务实的公司,更不能为了用某个"先进"技术而强推. 并不是为了用而用, 更多的是要考虑本身的业务场景和需求,合理选择适合自己的产品,甚至某些情况下选择商业产品,没有最好,只有目前最适合 |
|