免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: Gray1982
打印 上一主题 下一主题

[Hadoop&HBase] 【讨论】海量数据分析之Hadoop(获奖名单已公布-2012-5-28) [复制链接]

论坛徽章:
9
技术图书徽章
日期:2014-10-14 15:48:13数据库技术版块每日发帖之星
日期:2015-06-04 22:20:00数据库技术版块每日发帖之星
日期:2015-06-10 22:20:00数据库技术版块每日发帖之星
日期:2015-06-11 22:20:00数据库技术版块每日发帖之星
日期:2015-06-13 22:20:00IT运维版块每日发帖之星
日期:2015-09-22 06:20:00IT运维版块每日发帖之星
日期:2015-12-08 06:20:00综合交流区版块每日发帖之星
日期:2016-02-02 06:20:00IT运维版块每日发帖之星
日期:2016-07-25 06:20:00
71 [报告]
发表于 2012-05-12 23:25 |只看该作者
Gray1982 发表于 2012-05-12 23:05
估计说的是海量文件,不是说单一文件的大小



我说的是硬盘性能问题,不要以为海量系统就不存在这个问题了,事实上大系统这个问题更加严重,为了硬盘,无论你的系统有多大有多海量,你都必须要牺牲一些东西以做妥协,而这些牺牲,经常是用户无法接受的,比如实时性、访问限制、可靠性等等。
你可千万别把我当菜鸟,HADOOP至少三年前我就用过,没有比较,我是不会乱说的。

论坛徽章:
0
72 [报告]
发表于 2012-05-12 23:29 |只看该作者
回复 71# kns1024wh


    这文件我也知道,我想说的是里面的参数。我曾经改过,最起码的块大小,IO模型等,实在太多了
你那有个例子不

论坛徽章:
9
技术图书徽章
日期:2014-10-14 15:48:13数据库技术版块每日发帖之星
日期:2015-06-04 22:20:00数据库技术版块每日发帖之星
日期:2015-06-10 22:20:00数据库技术版块每日发帖之星
日期:2015-06-11 22:20:00数据库技术版块每日发帖之星
日期:2015-06-13 22:20:00IT运维版块每日发帖之星
日期:2015-09-22 06:20:00IT运维版块每日发帖之星
日期:2015-12-08 06:20:00综合交流区版块每日发帖之星
日期:2016-02-02 06:20:00IT运维版块每日发帖之星
日期:2016-07-25 06:20:00
73 [报告]
发表于 2012-05-12 23:31 |只看该作者
kns1024wh 发表于 2012-05-12 23:19
回复 72# bbjmmj


前几年炒LUSTRE,那个时候HDFS还没火起来呢,某知名超算机构跟风用LUSTRE,累得疲于奔命,现在好多超算中心用的都是商业存储,HADOOP也会遇到同样的问题。

假定“Hadoop适合有大量数据需要计算处理的互联网应用”完全绝对正确,这其中就已经包含了万分之九千九百九十久的不适合,因为大家的数据都不够大。
你的数据够大,你用HADOOP也不怎么放心,是吧?

论坛徽章:
0
74 [报告]
发表于 2012-05-12 23:36 |只看该作者
回复 72# bbjmmj

开网站不是为了分析日志,但用Hadoop很多是为了分析日志,精准定位
每天成T的日志要分析,你觉得用啥会更好一点呢?

我们都知道创新是王道,创新也不是一个人说创新就创新的,至于你说的一些问题,最起码在Hadoop上不是不可解决的
   

论坛徽章:
0
75 [报告]
发表于 2012-05-12 23:39 |只看该作者
本帖最后由 Gray1982 于 2012-05-12 23:41 编辑

回复 74# bbjmmj

在这里讨论的无论你是新手也好,专家也好,都是为了更好的学习,所以只要说出自己的观点,都是值得尊重的
    IO一直是个问题,所以不管用在那里都是问题
在Hadoop上,可以调节一些块大小,IO模式等来优化,尽可能的发挥其最大性能
当然,如果有更好的代替品就更好了
如果暂时没有的话,就先使用它,尽可能的发挥其最大性能吧

论坛徽章:
9
技术图书徽章
日期:2014-10-14 15:48:13数据库技术版块每日发帖之星
日期:2015-06-04 22:20:00数据库技术版块每日发帖之星
日期:2015-06-10 22:20:00数据库技术版块每日发帖之星
日期:2015-06-11 22:20:00数据库技术版块每日发帖之星
日期:2015-06-13 22:20:00IT运维版块每日发帖之星
日期:2015-09-22 06:20:00IT运维版块每日发帖之星
日期:2015-12-08 06:20:00综合交流区版块每日发帖之星
日期:2016-02-02 06:20:00IT运维版块每日发帖之星
日期:2016-07-25 06:20:00
76 [报告]
发表于 2012-05-12 23:50 |只看该作者
Gray1982 发表于 2012-05-12 23:36
回复 72# bbjmmj

开网站不是为了分析日志,但用Hadoop很多是为了分析日志,精准定位


每天成T日志的网站数量已经很少了,现在随便一个6盘位服务器容量都能到10个T,每天1T日志,得十天才能灌满一台配置很一般的服务器。
得到日志,得先MAP,去掉不想分析的字段,然后再REDUCE,归并成需要的数据,你想想得多大规模的日志才需要HADOOP?我觉得咱得从策略上MAP REDUCE一下该不该用HADOOP了,最后发现已经剩不下几个网站了————MAP REDUCE悖论证明HADOOP不适用。

论坛徽章:
9
技术图书徽章
日期:2014-10-14 15:48:13数据库技术版块每日发帖之星
日期:2015-06-04 22:20:00数据库技术版块每日发帖之星
日期:2015-06-10 22:20:00数据库技术版块每日发帖之星
日期:2015-06-11 22:20:00数据库技术版块每日发帖之星
日期:2015-06-13 22:20:00IT运维版块每日发帖之星
日期:2015-09-22 06:20:00IT运维版块每日发帖之星
日期:2015-12-08 06:20:00综合交流区版块每日发帖之星
日期:2016-02-02 06:20:00IT运维版块每日发帖之星
日期:2016-07-25 06:20:00
77 [报告]
发表于 2012-05-12 23:55 |只看该作者
Gray1982 发表于 2012-05-12 23:39
回复 74# bbjmmj

在这里讨论的无论你是新手也好,专家也好,都是为了更好的学习,所以只要说出自己的观 ...


从海量数据分析的过程来看,用磁带机更合适,磁带机读写流式文件比硬盘快得多,而且性能抖动也很小,这点是硬盘无法与之相比的。好多中间结果是没必要保存的,磁带可靠性已足够保留中间结果。
仓库的重要性永远比不上生产线。

论坛徽章:
0
78 [报告]
发表于 2012-05-13 00:30 |只看该作者
回复 79# bbjmmj
这里说的不仅仅是网站需要,电商后台需要的海量日志加上日积月累需要的空间很多
业务需要,有可能要查几月前的一些数据,所以日志空间还是需要的
根据业务需要来,也许你没碰到而已


   

论坛徽章:
0
79 [报告]
发表于 2012-05-13 00:32 |只看该作者
回复 80# bbjmmj

如果PB级的数据,还经常用,那个更省钱?包括备份等数据维护。

   

论坛徽章:
0
80 [报告]
发表于 2012-05-13 09:25 |只看该作者
 呵呵,大家讨论的很热烈啊,我也来说下我的看法。
   
   HDFS实际上参照的是Google GFS的设计思想,可以认为是一个开源的GFS,那么Google在设计GFS之初,也考虑过其它的分布式文件系统,如lustrue,但是,它们都无法满足Google应用对文件系统的要求,因此,现实情况逼得Google不得不自己造轮子,不然,如果有现成的分布式文件系统解决方案,仅从成本方面考虑,Google也不会自己再去做个没有实际意义的文件系统了。
   那么,Goolge的应用在存储有些什么特点呢?搞清了这些,也就搞清楚了GFS和HDFS的用武之地。
   1)硬件极不可靠,主要是为了省钱,估计大家都对Google公布的那个经典蜘蛛网一样的服务器机柜有印象吧,GFS设计的前提就是硬件故障是一种常态,这主要也是因为Google出身平民,它的创始人最初只是学生,也没什么钱,无法购买更好的机器。而lustre就不一样了,它的定位是高性能环境下,而且也是大公司支持,不差钱,正因为如此,它将文件的存储的可靠性依赖于底下的硬件,它自身则专注于高性能。志不同,道也就不同了。
   2)高可扩展,目前来说,数据的增长是惊人的,例子太多就不举了,光想想我们硬盘的进化,从GB级别到TB进化的速度就可想而知,因此,应用对存储的扩展能力是有要求的,GFS、HDFS在实际中都能做到几千台以上的规模,容量可通过增加机器水平扩展,这也是它的一个特点。
  3)存储与计算相结合,GFS、HDFS用于存储的同时,还与上层的计算框架天然结合,在存储的分布上与计算充分结合,可有效提高计算的效率,这是其它分布式文件系统所没有的特点。
  当然,GFS和HDFS也有很多局限,不具备通用文件系统的很多功能,如HDFS不支持Posix接口等,在这里面,功能的选取其实也是与应用具体相关的。

  总的来说,如果应用是大文件、一次写入、多次读取的情况,或者在这基础上还有对数据计算的需求,那么,恭喜你,Hadoop一定是目前来说最高性价比的一个选择。
  如果说是要把HDFS当通用文件系统使,那么对不起,会让你失望,你可以选择MFS、lustre、CEPH,它们可以满足你的需要。
  
  总的来说,HDFS也好,MFS、Lustre也好,它们都是工具,都不是万能的,我们能做的是把它们的特性掌握好,做到和应用最好的结合。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP