免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: Gray1982
打印 上一主题 下一主题

[Hadoop&HBase] 【讨论】海量数据分析之Hadoop(获奖名单已公布-2012-5-28) [复制链接]

论坛徽章:
0
81 [报告]
发表于 2012-05-13 00:32 |只看该作者
回复 80# bbjmmj

如果PB级的数据,还经常用,那个更省钱?包括备份等数据维护。

   

论坛徽章:
0
82 [报告]
发表于 2012-05-13 09:25 |只看该作者
 呵呵,大家讨论的很热烈啊,我也来说下我的看法。
   
   HDFS实际上参照的是Google GFS的设计思想,可以认为是一个开源的GFS,那么Google在设计GFS之初,也考虑过其它的分布式文件系统,如lustrue,但是,它们都无法满足Google应用对文件系统的要求,因此,现实情况逼得Google不得不自己造轮子,不然,如果有现成的分布式文件系统解决方案,仅从成本方面考虑,Google也不会自己再去做个没有实际意义的文件系统了。
   那么,Goolge的应用在存储有些什么特点呢?搞清了这些,也就搞清楚了GFS和HDFS的用武之地。
   1)硬件极不可靠,主要是为了省钱,估计大家都对Google公布的那个经典蜘蛛网一样的服务器机柜有印象吧,GFS设计的前提就是硬件故障是一种常态,这主要也是因为Google出身平民,它的创始人最初只是学生,也没什么钱,无法购买更好的机器。而lustre就不一样了,它的定位是高性能环境下,而且也是大公司支持,不差钱,正因为如此,它将文件的存储的可靠性依赖于底下的硬件,它自身则专注于高性能。志不同,道也就不同了。
   2)高可扩展,目前来说,数据的增长是惊人的,例子太多就不举了,光想想我们硬盘的进化,从GB级别到TB进化的速度就可想而知,因此,应用对存储的扩展能力是有要求的,GFS、HDFS在实际中都能做到几千台以上的规模,容量可通过增加机器水平扩展,这也是它的一个特点。
  3)存储与计算相结合,GFS、HDFS用于存储的同时,还与上层的计算框架天然结合,在存储的分布上与计算充分结合,可有效提高计算的效率,这是其它分布式文件系统所没有的特点。
  当然,GFS和HDFS也有很多局限,不具备通用文件系统的很多功能,如HDFS不支持Posix接口等,在这里面,功能的选取其实也是与应用具体相关的。

  总的来说,如果应用是大文件、一次写入、多次读取的情况,或者在这基础上还有对数据计算的需求,那么,恭喜你,Hadoop一定是目前来说最高性价比的一个选择。
  如果说是要把HDFS当通用文件系统使,那么对不起,会让你失望,你可以选择MFS、lustre、CEPH,它们可以满足你的需要。
  
  总的来说,HDFS也好,MFS、Lustre也好,它们都是工具,都不是万能的,我们能做的是把它们的特性掌握好,做到和应用最好的结合。

论坛徽章:
9
技术图书徽章
日期:2014-10-14 15:48:13数据库技术版块每日发帖之星
日期:2015-06-04 22:20:00数据库技术版块每日发帖之星
日期:2015-06-10 22:20:00数据库技术版块每日发帖之星
日期:2015-06-11 22:20:00数据库技术版块每日发帖之星
日期:2015-06-13 22:20:00IT运维版块每日发帖之星
日期:2015-09-22 06:20:00IT运维版块每日发帖之星
日期:2015-12-08 06:20:00综合交流区版块每日发帖之星
日期:2016-02-02 06:20:00IT运维版块每日发帖之星
日期:2016-07-25 06:20:00
83 [报告]
发表于 2012-05-13 14:09 |只看该作者
Gray1982 发表于 2012-05-13 00:30
回复 79# bbjmmj
这里说的不仅仅是网站需要,电商后台需要的海量日志加上日积月累需要的空间很多
业务需 ...


提取几个月前的日志,磁带库毫无疑问是最佳选择。
海量数据,无论多大容量,哪怕容量相当于整个互联网的数据总量,都没有使用HDFS的必要。HDFS仅仅是针对个别特定应用而做的设计,如果不是因为捆绑了MAP REDUCE,没人用它。MAP REDUCE实际上是一个方法,而不是一个应用。
HADOOP好坏几年前就已经决定了,现在被炒作,是因为个别厂商将HADOOP集成到集群NAS系统中去,这是个商业推销。HADOOP是APACHE协议的,所以才可以集成到商业存储中,这是根本原因,如果是GPL协议,市场根本不会理它。

论坛徽章:
9
技术图书徽章
日期:2014-10-14 15:48:13数据库技术版块每日发帖之星
日期:2015-06-04 22:20:00数据库技术版块每日发帖之星
日期:2015-06-10 22:20:00数据库技术版块每日发帖之星
日期:2015-06-11 22:20:00数据库技术版块每日发帖之星
日期:2015-06-13 22:20:00IT运维版块每日发帖之星
日期:2015-09-22 06:20:00IT运维版块每日发帖之星
日期:2015-12-08 06:20:00综合交流区版块每日发帖之星
日期:2016-02-02 06:20:00IT运维版块每日发帖之星
日期:2016-07-25 06:20:00
84 [报告]
发表于 2012-05-13 14:10 |只看该作者
Gray1982 发表于 2012-05-13 00:32
回复 80# bbjmmj

如果PB级的数据,还经常用,那个更省钱?包括备份等数据维护。


肯定不是HDFS。

论坛徽章:
0
85 [报告]
发表于 2012-05-13 16:23 |只看该作者
回复 76# bbjmmj


    这个是要看架构中的需求的,IOE就一定是最好的, 开源的早就注定没有价值吗?

论坛徽章:
0
86 [报告]
发表于 2012-05-13 16:23 |只看该作者
回复 75# Gray1982


    需要修改的都是要和业务结合在一起的。

论坛徽章:
9
技术图书徽章
日期:2014-10-14 15:48:13数据库技术版块每日发帖之星
日期:2015-06-04 22:20:00数据库技术版块每日发帖之星
日期:2015-06-10 22:20:00数据库技术版块每日发帖之星
日期:2015-06-11 22:20:00数据库技术版块每日发帖之星
日期:2015-06-13 22:20:00IT运维版块每日发帖之星
日期:2015-09-22 06:20:00IT运维版块每日发帖之星
日期:2015-12-08 06:20:00综合交流区版块每日发帖之星
日期:2016-02-02 06:20:00IT运维版块每日发帖之星
日期:2016-07-25 06:20:00
87 [报告]
发表于 2012-05-13 21:37 |只看该作者
kns1024wh 发表于 2012-05-13 16:23
回复 76# bbjmmj


不是说开源的不好,开源的商业炒作少,比较塌实。很少有商家会去炒作GPL协议的软件。

论坛徽章:
0
88 [报告]
发表于 2012-05-13 23:29 |只看该作者
回复 85# bbjmmj


    那用什么,来个更好的

论坛徽章:
0
89 [报告]
发表于 2012-05-13 23:30 |只看该作者
回复 84# bbjmmj


    成本·········

论坛徽章:
0
90 [报告]
发表于 2012-05-13 23:31 |只看该作者
回复 87# kns1024wh


    我知道的,可以把现在用的贴上来不
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP