免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123
最近访问板块 发新帖
楼主: heguangwu
打印 上一主题 下一主题

[其他] Hadoop的未来在哪里 [复制链接]

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
21 [报告]
发表于 2016-01-25 23:32 |只看该作者

heguangwu 发表于 2016-01-25 14:07
哪个新版本好像已经不再继续支持MapReduce了?
hadoop本身只有hdfs能持久,你认为yarn本身有什么问题吗?M ...


I have some concern about yarn , on scheduler even u using fair scheduler/ capacity scheduler ,there still have some situation can't be meet.
eg: if I have A,B,C,D four Queue by using capacity scheduler,
and the  assginment is A 10% B 20% C 40% D 40% witch each setting maximum capacity is 90%, If queue C used absolute capacity 80%, and now another job coming to Queue D, looks like it won't running till there have enough resource available.

论坛徽章:
3
15-16赛季CBA联赛之同曦
日期:2016-03-15 17:09:4315-16赛季CBA联赛之新疆
日期:2016-04-18 14:21:37shanzhi
日期:2016-06-17 17:59:31
22 [报告]
发表于 2016-01-26 14:24 |只看该作者
1、MapReduce的主要应用领域在哪里?在哪些场合被取代可能性不高?
   MapReduce的主要应用领域,目前日志分析用的比较多,还有做搜素的索引,机器学习算法包mahout也是之一,当然它能做的东西还有很多,比如分布grep,分布排序,web访问日志分析,反向索引构建,文档聚类,机器学习,基于统计的机器翻译,数据挖掘、信息提取等等。
   大规模数据处理的特点决定了大量的数据记录难以全部存放在内存,而通常只能放在外存中进行处理。由于磁盘的顺序访问要远比随机访问快得多,因此 MapReduce主要设计为面向顺序式大规模数据的磁盘访问处理,因此在这种场合被取代的可能性不高。

2、对比YARN和Mesos的优势和劣势,以及YARN框架未来的发展方向?
1)、YARN 优点
    YARN作为hadoop 2.0,hadoop各个组件都快速的接入YARN框架,未来发展很快,默认支持调度算法更丰富。
      YARN 缺点
    ResourceManager负责所有应用的任务调度,各个应用作为YARN的一个client library。传统数据库应用,接入之后效率不高,比较困难。
2)、Mesos 优点
    可以同时支持短类型任务以及长类型服务,比如webservice以及SQL service。 资源分配粒度粗,比较适合我们产品多种计算框架并存的现状。
      Mesos  缺点
    Mesos中的DRF调度算法过分的追求公平,没有考虑到实际的应用需求。在实际生产线上,往往需要类似于Hadoop中Capacity Scheduler的调度机制,将所有资源分成若干个queue,每个queue分配一定量的资源,每个user有一定的资源使用上限;更使用的调度策略是应该支持每个queue可单独定制自己的调度器策略,如:FIFO,Priority等。
    由于Mesos采用了双层调度机制,在实际调度时,将面临设计决策问题:第一层和第二层调度器分别实现哪几个调度机制,即:将大部分调度机制放到第一层调度器,还是第一层调度器仅支持简单的资源分配(分配比例由管理员指定)?
    Mesos采用了Resource Offer机制(不同于Hadoop中的基于slot的调度机制),这种调度机制面临着资源碎片问题,即:每个节点上的资源不可能全部被分配完,剩下的一点可能不足以让任何任务运行,这样,便产生了类似于操作系统中的内存碎片问题。
     YARN框架未来的发展方向:随着YARN的成熟和稳定,必将形成一个以YARN为核心的生态系统,在该生态系统中,未来趋势肯定是所有计算相关的框架可运行在一个YARN集群中,各类系统或者服务可运行在一个集群中,进行统一资源管理和调度。

3、HDFS缺少哪些你需要的特性,或者你比较喜欢其哪一个特性,也可以谈谈您比较看好哪个存储系统,为什么?
    比较喜欢的特性便是可以运行于廉价的商用机器集群上
    Hadoop设计对硬件需求比较低,只须运行在低廉的商用硬件集群上,而无需昂贵的高可用性机器上。廉价的商用机也就意味着大型集群中出现节点故障情况的概率非常高。这就要求设计HDFS时要充分考虑数据的可靠性,安全性及高可用性。

4、Hadoop从业者应该如何进行职业规划?

    可以从以下四方面着手:
一是了解招聘中常用的术语
在简历、履历和其他求职文件中,一些专业词汇和术语往往能够吸引招聘人员和人事经理的眼球。例如:大规模设计和建造可扩展性分布式数据存储、系统和管道;实现xxxx节点的Hadoop集群;从零开始或者从底层开始构建。

二是与Hadoop相关的工作不一定在标题中包含“Hadoop”
   如果你在找工作,目光不要过于狭隘——切记大数据相关的职位有各种各样形式,而且有些工作看起来与Hadoop相关,实际却只是一种伪装。常见的数据工程师甚至像后端工程师这样的职位也是与Hadoop相关的工作。

三是持续关注不断发展的行业环境
    Hadoop是一个相对年轻的技术,和整个大数据行业一样。因此,要想在大数据行业或者相关行业得到较好的发展,及时关注最新的行业趋势和变化特别重要。
    坚持关注数据大会,比如Strate和Hadoop峰会。关注这些数据大会都是非常有利于了解行业前沿技术,在这些会议上会有很多著名的企业参加。关注行业领袖们在他们公司网站上的博客,了解一些数据大会上的重要演讲,不要害怕与招聘者谈论行业发展趋势,只是我们看行业趋势要比公众更具前瞻性。

四是Hadoop相关工作不是唯一的选择
    可以肯定的是,Hadoop仍然热门,Hadoop不是应对数据指数型增长的唯一平台或技能。Hadoop不是市场应对数据需求的唯一选择,关注一下应对大数据的不同技术,问问周围其他人在用哪些技术,有什么样的优点和缺点。

论坛徽章:
26
CU十二周年纪念徽章
日期:2013-10-24 15:41:34技术图书徽章
日期:2014-07-11 16:27:52辰龙
日期:2014-09-04 13:40:43白羊座
日期:2014-09-09 12:51:55双子座
日期:2014-09-26 11:00:042014年中国系统架构师大会
日期:2014-10-14 15:59:00子鼠
日期:2014-10-23 16:48:23巨蟹座
日期:2014-10-27 08:21:10申猴
日期:2014-12-08 10:16:282015年辞旧岁徽章
日期:2015-03-03 16:54:15NBA常规赛纪念章
日期:2015-05-04 22:32:03IT运维版块每日发帖之星
日期:2016-01-29 06:20:00
23 [报告]
发表于 2016-01-26 20:30 |只看该作者
技术在发展,被替代也不是不死不可能的

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
24 [报告]
发表于 2016-01-27 13:22 |只看该作者
yarn的调度确实不可能做到十全十美,但mesos调度感觉更粗啊,显示的情况感觉应该是要多种调度器来解决问题比较好
回复 21# wenhq


   

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
25 [报告]
发表于 2016-01-27 13:24 |只看该作者
spark on yarn的问题更多的是spark走的太快了
回复 19# wenhq


   

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
26 [报告]
发表于 2016-01-27 23:17 |只看该作者
回复 25# heguangwu

yea!haha


   

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
27 [报告]
发表于 2016-01-27 23:19 |只看该作者
回复 24# heguangwu


    yarn seems fine-grained scheduler ,while mesos support coarse-grained scheduler.??
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP