Chinaunix

标题: Hadoop的未来在哪里 [打印本页]

作者: heguangwu    时间: 2016-01-13 21:40
标题: Hadoop的未来在哪里
获奖名单已公布:http://bbs.chinaunix.net/thread-4241882-1-1.html

话题背景
      随着Spark的流行,Hadoop尤其是MapReduce进一步被快速的替代,越来越多的公司采用spark作为主流计算平台,随着内存越来越便宜且越来越大,基于内存计算已经成为主流,而MapReduce作为基于磁盘的计算缺陷很明显,整个性能无法再大幅度提升,Hadoop的底层存储HDFS从架构和性能也被广泛诟病,Google在2009年在Caffeine就已经宣称采用GFS2替代2003年公布的GFS,而HDFS是基于老的GFS,在存储上受到CEPH、MapR等众多的挑战,此外,Hadoop的YARN的资源管理和调度框架也受到mesos/docker的冲击,总的说来,分布式计算框架热点已经从MapReduce转移到Spark,你对此有何想法?欢迎参与本期话题:MapReduce或YARN的未来在哪里?



讨论话题
1、MapReduce的主要应用领域在哪里?在哪些场合被取代可能性不高?
2、对比YARN和Mesos的优势和劣势,以及YARN框架未来的发展方向?
3、HDFS缺少哪些你需要的特性,或者你比较喜欢其哪一个特性,也可以谈谈您比较看好哪个存储系统,为什么?
4、Hadoop从业者应该如何进行职业规划?



活动时间
2016年1月14日--2016年2月14日



活动奖励
活动结束后将选取4名讨论精彩的童鞋,每人赠送一本《精通Hadoop》图书作为奖励。



奖品简介

作者: (印) Sandeep Karanth   
译者: 刘淼 唐觊隽 陈智威
丛书名: 图灵程序设计丛书
出版社:人民邮电出版社
出版日期:2016 年1月
开本:16开
页码:268
版次:1-1


内容简介
这本高阶教程将通过大量示例帮助你精通Hadoop,掌握Hadoop实践和技巧。主要内容包括:Hadoop MapReduce、Pig 和Hive 优化策略,YARN 审读剖析,如何利用Storm,等等。如果你熟悉Hadoop,并想将自己的技能再提高一个层次,本书是你的不二之选。



试读样章
精通Hadoop--第一章.docx (307.82 KB, 下载次数: 39)
作者: 王江玉    时间: 2016-01-15 08:08
占个位置
作者: sjf0115    时间: 2016-01-15 15:57
书 不错   
作者: qingduo04    时间: 2016-01-15 17:13
占个位置,待更新............
作者: bfmo    时间: 2016-01-16 17:02
spark效率比较高,MR会被替代,只是时间问题而已。
作者: baby_神    时间: 2016-01-16 17:12
各有千秋,就像shell和python,perl一样。没有好坏,只能根据应用场景来决定你使用什么更好
作者: demilich    时间: 2016-01-17 11:28
顶, 好书 .....
作者: renxiao2003    时间: 2016-01-18 14:24
啥肚皮,我还没有哈肚皮过呢。
作者: Steddywr    时间: 2016-01-19 16:34
没有那么说的那么夸张吧,虽然我不是搞技术的,但是最近我手上在招的一些职位都是要求懂hadoop的,比如hadoop工程师、算法工程师等,这可以看出很多企业还是在用这方面的技术。
作者: cokeboL    时间: 2016-01-20 19:53
1、MapReduce的主要应用领域在哪里?在哪些场合被取代可能性不高?
     主要应用在大数据处理、分析。新版本好像已经不再继续支持MapReduce了,性能相比Spark之类太差,被Spark取代几乎是必然了。
2、对比YARN和Mesos的优势和劣势,以及YARN框架未来的发展方向?
     Yarn和Mesos我都没怎么用,在hadoop几个技术群里聊,Mesos似乎更优秀,也是未来大势所趋的样子。
3、HDFS缺少哪些你需要的特性,或者你比较喜欢其哪一个特性,也可以谈谈您比较看好哪个存储系统,为什么?
     缺少的特性就是,我不喜欢java,希望能对python提供编程接口,虽然streaming可以使用各种语言处理大数据,但是文件系统相关的
     编程接口只支持java,也是很虐心。功能上,作为分布式文件系统,还好了,挺全面的没遇到什么缺的。喜欢的特性,当然是命令和shell
     很像,容易入门和使用
4、Hadoop从业者应该如何进行职业规划?
     个人觉得hadoop本身只有hdfs能持久,MR会逐渐被Spark取代,hdfs相关的业务,可能只是两大部分:一是运维, 二是存储相关的开发。
     这两个方向的iter自然需要去学习和实战相关知识。
     另外,各大行业数据相关的业务,如数据处理、分析的人员需求会更多些,而需要的专业知识和算法要求也更高些,可以在数据挖掘上多深入
     研究下。
作者: wenhq    时间: 2016-01-20 22:48
本帖最后由 wenhq 于 2016-01-20 22:49 编辑

1、MapReduce的主要应用领域在哪里?在哪些场合被取代可能性不高?
a. offline computing. batch computing
b. query data with SQL?
c. it's very hard to be replace under batch processing.
2、对比YARN和Mesos的优势和劣势,以及YARN框架未来的发展方向?
a. Yarn support capacity/fair scheduler on memory/cpu which has fine-grained scheduler.
b. Mesos supprot coarse-grained scheduler which support yarn job also with non-yarn job.
3、HDFS缺少哪些你需要的特性,或者你比较喜欢其哪一个特性,也可以谈谈您比较看好哪个存储系统,为什么?
a.I like hdfs easily scaling. has default 3 replication with high availability. also it's take server down as common problems ,also build  on commodity server.reduce server-farm cost.
b.  compare to Glusterfs, Hdfs balance doesn't have high impact than GlusterFS.
c.  compare to Fastdfs, I thought it's can commit data replication more accurate than Fastdfs, which it is very hard under high volume write situation.
d. but, hdfs sync between cluster/DC. we have to use distcp tools  to make it, doesn't like NFS which need sync data easily.
e. hdfs doesn't like new tech ignite/tachyon which support memory-based storage will provide more faster access data, as it's data store on disk. you know, Disk I/O is  always bottleneck of performance.
4、Hadoop从业者应该如何进行职业规划?
Hadoop is a big ecosystem include storage/database/processing/security. I thought it's better do some project/experience under some mentor if possible. also you have to strong java coding skill, as it's based on java. after you did some projects, then try to understand the principle of Hadoop.
try to fix some bugs under github/googlegroup.  the most important part, you have to keep hungry till to understand the truth of Hadoop.

Just part of my opinion.
作者: heguangwu    时间: 2016-01-25 14:02
现在大的公司都逐步采用Spark了,当然并不是说不用MapReduce,当前情况是并存
回复 10# Steddywr


   
作者: heguangwu    时间: 2016-01-25 14:07
哪个新版本好像已经不再继续支持MapReduce了?
hadoop本身只有hdfs能持久,你认为yarn本身有什么问题吗?MapReduce只是Hadoop的一个内置分布式计算框架,Hadoop本身是可以支持多种计算架构,如spark、storm
回复 11# cokeboL


   
作者: heguangwu    时间: 2016-01-25 14:14
HDFS supported  Heterogeneous Storage Tiers since 2.6, for SSD storage tier, Memory as a storage tier (beta).
Hdfs balance is  node-based,not disk-based

回复 12# wenhq


   
作者: cokeboL    时间: 2016-01-25 15:43
回复 14# heguangwu


    忘记是hadoop原版还是cdh的某版本了,偶尔瞟到过一眼,不在继续支持是说不再继续改进或支持已有功能的bug之类,不是从功能里把MR去掉
    hadoop支持其他的我知道,就是因为支持spark storm,而且与他们相比,MR太鸡肋,所以没必要再用了
作者: phobos    时间: 2016-01-25 17:16
先占个位置
作者: heguangwu    时间: 2016-01-25 21:49
MapReduce如果架构不变,基本没有改进空间了,这也就是为什么hortonworks搞Tez的原因
回复 16# cokeboL


   
作者: wenhq    时间: 2016-01-25 23:26
回复 15# heguangwu

But it's rarely use Heterogeneous Storage? right,
seems it's has Heterogeneous Storage feature during hadoop 2.6


btw, hadoop 2.7 support a new migirate tools like mover. which is used for archiving.

seems spark on yarn has lots of restriction ,especially in latest spark 1.6....need more time/effort to make it stable.


   
作者: wenhq    时间: 2016-01-25 23:27
回复 18# heguangwu


seems you are using tez?haha
Are u fans of Hortonworks?

   
作者: wenhq    时间: 2016-01-25 23:32

heguangwu 发表于 2016-01-25 14:07
哪个新版本好像已经不再继续支持MapReduce了?
hadoop本身只有hdfs能持久,你认为yarn本身有什么问题吗?M ...


I have some concern about yarn , on scheduler even u using fair scheduler/ capacity scheduler ,there still have some situation can't be meet.
eg: if I have A,B,C,D four Queue by using capacity scheduler,
and the  assginment is A 10% B 20% C 40% D 40% witch each setting maximum capacity is 90%, If queue C used absolute capacity 80%, and now another job coming to Queue D, looks like it won't running till there have enough resource available.

作者: yehuafeilang    时间: 2016-01-26 14:24
1、MapReduce的主要应用领域在哪里?在哪些场合被取代可能性不高?
   MapReduce的主要应用领域,目前日志分析用的比较多,还有做搜素的索引,机器学习算法包mahout也是之一,当然它能做的东西还有很多,比如分布grep,分布排序,web访问日志分析,反向索引构建,文档聚类,机器学习,基于统计的机器翻译,数据挖掘、信息提取等等。
   大规模数据处理的特点决定了大量的数据记录难以全部存放在内存,而通常只能放在外存中进行处理。由于磁盘的顺序访问要远比随机访问快得多,因此 MapReduce主要设计为面向顺序式大规模数据的磁盘访问处理,因此在这种场合被取代的可能性不高。

2、对比YARN和Mesos的优势和劣势,以及YARN框架未来的发展方向?
1)、YARN 优点
    YARN作为hadoop 2.0,hadoop各个组件都快速的接入YARN框架,未来发展很快,默认支持调度算法更丰富。
      YARN 缺点
    ResourceManager负责所有应用的任务调度,各个应用作为YARN的一个client library。传统数据库应用,接入之后效率不高,比较困难。
2)、Mesos 优点
    可以同时支持短类型任务以及长类型服务,比如webservice以及SQL service。 资源分配粒度粗,比较适合我们产品多种计算框架并存的现状。
      Mesos  缺点
    Mesos中的DRF调度算法过分的追求公平,没有考虑到实际的应用需求。在实际生产线上,往往需要类似于Hadoop中Capacity Scheduler的调度机制,将所有资源分成若干个queue,每个queue分配一定量的资源,每个user有一定的资源使用上限;更使用的调度策略是应该支持每个queue可单独定制自己的调度器策略,如:FIFO,Priority等。
    由于Mesos采用了双层调度机制,在实际调度时,将面临设计决策问题:第一层和第二层调度器分别实现哪几个调度机制,即:将大部分调度机制放到第一层调度器,还是第一层调度器仅支持简单的资源分配(分配比例由管理员指定)?
    Mesos采用了Resource Offer机制(不同于Hadoop中的基于slot的调度机制),这种调度机制面临着资源碎片问题,即:每个节点上的资源不可能全部被分配完,剩下的一点可能不足以让任何任务运行,这样,便产生了类似于操作系统中的内存碎片问题。
     YARN框架未来的发展方向:随着YARN的成熟和稳定,必将形成一个以YARN为核心的生态系统,在该生态系统中,未来趋势肯定是所有计算相关的框架可运行在一个YARN集群中,各类系统或者服务可运行在一个集群中,进行统一资源管理和调度。

3、HDFS缺少哪些你需要的特性,或者你比较喜欢其哪一个特性,也可以谈谈您比较看好哪个存储系统,为什么?
    比较喜欢的特性便是可以运行于廉价的商用机器集群上
    Hadoop设计对硬件需求比较低,只须运行在低廉的商用硬件集群上,而无需昂贵的高可用性机器上。廉价的商用机也就意味着大型集群中出现节点故障情况的概率非常高。这就要求设计HDFS时要充分考虑数据的可靠性,安全性及高可用性。

4、Hadoop从业者应该如何进行职业规划?

    可以从以下四方面着手:
一是了解招聘中常用的术语
在简历、履历和其他求职文件中,一些专业词汇和术语往往能够吸引招聘人员和人事经理的眼球。例如:大规模设计和建造可扩展性分布式数据存储、系统和管道;实现xxxx节点的Hadoop集群;从零开始或者从底层开始构建。

二是与Hadoop相关的工作不一定在标题中包含“Hadoop”
   如果你在找工作,目光不要过于狭隘——切记大数据相关的职位有各种各样形式,而且有些工作看起来与Hadoop相关,实际却只是一种伪装。常见的数据工程师甚至像后端工程师这样的职位也是与Hadoop相关的工作。

三是持续关注不断发展的行业环境
    Hadoop是一个相对年轻的技术,和整个大数据行业一样。因此,要想在大数据行业或者相关行业得到较好的发展,及时关注最新的行业趋势和变化特别重要。
    坚持关注数据大会,比如Strate和Hadoop峰会。关注这些数据大会都是非常有利于了解行业前沿技术,在这些会议上会有很多著名的企业参加。关注行业领袖们在他们公司网站上的博客,了解一些数据大会上的重要演讲,不要害怕与招聘者谈论行业发展趋势,只是我们看行业趋势要比公众更具前瞻性。

四是Hadoop相关工作不是唯一的选择
    可以肯定的是,Hadoop仍然热门,Hadoop不是应对数据指数型增长的唯一平台或技能。Hadoop不是市场应对数据需求的唯一选择,关注一下应对大数据的不同技术,问问周围其他人在用哪些技术,有什么样的优点和缺点。

作者: cryboy2001    时间: 2016-01-26 20:30
技术在发展,被替代也不是不死不可能的
作者: heguangwu    时间: 2016-01-27 13:22
yarn的调度确实不可能做到十全十美,但mesos调度感觉更粗啊,显示的情况感觉应该是要多种调度器来解决问题比较好
回复 21# wenhq


   
作者: heguangwu    时间: 2016-01-27 13:24
spark on yarn的问题更多的是spark走的太快了
回复 19# wenhq


   
作者: wenhq    时间: 2016-01-27 23:17
回复 25# heguangwu

yea!haha


   
作者: wenhq    时间: 2016-01-27 23:19
回复 24# heguangwu


    yarn seems fine-grained scheduler ,while mesos support coarse-grained scheduler.??




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2