免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: heguangwu
打印 上一主题 下一主题

[其他] Hadoop的未来在哪里 [复制链接]

论坛徽章:
36
子鼠
日期:2013-08-28 22:23:29黄金圣斗士
日期:2015-12-01 11:37:51程序设计版块每日发帖之星
日期:2015-12-14 06:20:00CU十四周年纪念徽章
日期:2015-12-22 16:50:40IT运维版块每日发帖之星
日期:2016-01-25 06:20:0015-16赛季CBA联赛之深圳
日期:2016-01-27 10:31:172016猴年福章徽章
日期:2016-02-18 15:30:3415-16赛季CBA联赛之福建
日期:2016-04-07 11:25:2215-16赛季CBA联赛之青岛
日期:2016-04-29 18:02:5915-16赛季CBA联赛之北控
日期:2016-06-20 17:38:50技术图书徽章
日期:2016-07-19 13:54:03程序设计版块每日发帖之星
日期:2016-08-21 06:20:00
11 [报告]
发表于 2016-01-20 19:53 |只看该作者
1、MapReduce的主要应用领域在哪里?在哪些场合被取代可能性不高?
     主要应用在大数据处理、分析。新版本好像已经不再继续支持MapReduce了,性能相比Spark之类太差,被Spark取代几乎是必然了。
2、对比YARN和Mesos的优势和劣势,以及YARN框架未来的发展方向?
     Yarn和Mesos我都没怎么用,在hadoop几个技术群里聊,Mesos似乎更优秀,也是未来大势所趋的样子。
3、HDFS缺少哪些你需要的特性,或者你比较喜欢其哪一个特性,也可以谈谈您比较看好哪个存储系统,为什么?
     缺少的特性就是,我不喜欢java,希望能对python提供编程接口,虽然streaming可以使用各种语言处理大数据,但是文件系统相关的
     编程接口只支持java,也是很虐心。功能上,作为分布式文件系统,还好了,挺全面的没遇到什么缺的。喜欢的特性,当然是命令和shell
     很像,容易入门和使用
4、Hadoop从业者应该如何进行职业规划?
     个人觉得hadoop本身只有hdfs能持久,MR会逐渐被Spark取代,hdfs相关的业务,可能只是两大部分:一是运维, 二是存储相关的开发。
     这两个方向的iter自然需要去学习和实战相关知识。
     另外,各大行业数据相关的业务,如数据处理、分析的人员需求会更多些,而需要的专业知识和算法要求也更高些,可以在数据挖掘上多深入
     研究下。

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
12 [报告]
发表于 2016-01-20 22:48 |只看该作者
本帖最后由 wenhq 于 2016-01-20 22:49 编辑

1、MapReduce的主要应用领域在哪里?在哪些场合被取代可能性不高?
a. offline computing. batch computing
b. query data with SQL?
c. it's very hard to be replace under batch processing.
2、对比YARN和Mesos的优势和劣势,以及YARN框架未来的发展方向?
a. Yarn support capacity/fair scheduler on memory/cpu which has fine-grained scheduler.
b. Mesos supprot coarse-grained scheduler which support yarn job also with non-yarn job.
3、HDFS缺少哪些你需要的特性,或者你比较喜欢其哪一个特性,也可以谈谈您比较看好哪个存储系统,为什么?
a.I like hdfs easily scaling. has default 3 replication with high availability. also it's take server down as common problems ,also build  on commodity server.reduce server-farm cost.
b.  compare to Glusterfs, Hdfs balance doesn't have high impact than GlusterFS.
c.  compare to Fastdfs, I thought it's can commit data replication more accurate than Fastdfs, which it is very hard under high volume write situation.
d. but, hdfs sync between cluster/DC. we have to use distcp tools  to make it, doesn't like NFS which need sync data easily.
e. hdfs doesn't like new tech ignite/tachyon which support memory-based storage will provide more faster access data, as it's data store on disk. you know, Disk I/O is  always bottleneck of performance.
4、Hadoop从业者应该如何进行职业规划?
Hadoop is a big ecosystem include storage/database/processing/security. I thought it's better do some project/experience under some mentor if possible. also you have to strong java coding skill, as it's based on java. after you did some projects, then try to understand the principle of Hadoop.
try to fix some bugs under github/googlegroup.  the most important part, you have to keep hungry till to understand the truth of Hadoop.

Just part of my opinion.

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
13 [报告]
发表于 2016-01-25 14:02 |只看该作者
现在大的公司都逐步采用Spark了,当然并不是说不用MapReduce,当前情况是并存
回复 10# Steddywr


   

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
14 [报告]
发表于 2016-01-25 14:07 |只看该作者
哪个新版本好像已经不再继续支持MapReduce了?
hadoop本身只有hdfs能持久,你认为yarn本身有什么问题吗?MapReduce只是Hadoop的一个内置分布式计算框架,Hadoop本身是可以支持多种计算架构,如spark、storm
回复 11# cokeboL


   

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
15 [报告]
发表于 2016-01-25 14:14 |只看该作者
HDFS supported  Heterogeneous Storage Tiers since 2.6, for SSD storage tier, Memory as a storage tier (beta).
Hdfs balance is  node-based,not disk-based

回复 12# wenhq


   

论坛徽章:
36
子鼠
日期:2013-08-28 22:23:29黄金圣斗士
日期:2015-12-01 11:37:51程序设计版块每日发帖之星
日期:2015-12-14 06:20:00CU十四周年纪念徽章
日期:2015-12-22 16:50:40IT运维版块每日发帖之星
日期:2016-01-25 06:20:0015-16赛季CBA联赛之深圳
日期:2016-01-27 10:31:172016猴年福章徽章
日期:2016-02-18 15:30:3415-16赛季CBA联赛之福建
日期:2016-04-07 11:25:2215-16赛季CBA联赛之青岛
日期:2016-04-29 18:02:5915-16赛季CBA联赛之北控
日期:2016-06-20 17:38:50技术图书徽章
日期:2016-07-19 13:54:03程序设计版块每日发帖之星
日期:2016-08-21 06:20:00
16 [报告]
发表于 2016-01-25 15:43 |只看该作者
回复 14# heguangwu


    忘记是hadoop原版还是cdh的某版本了,偶尔瞟到过一眼,不在继续支持是说不再继续改进或支持已有功能的bug之类,不是从功能里把MR去掉
    hadoop支持其他的我知道,就是因为支持spark storm,而且与他们相比,MR太鸡肋,所以没必要再用了

论坛徽章:
0
17 [报告]
发表于 2016-01-25 17:16 |只看该作者
先占个位置

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
18 [报告]
发表于 2016-01-25 21:49 |只看该作者
MapReduce如果架构不变,基本没有改进空间了,这也就是为什么hortonworks搞Tez的原因
回复 16# cokeboL


   

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
19 [报告]
发表于 2016-01-25 23:26 |只看该作者
回复 15# heguangwu

But it's rarely use Heterogeneous Storage? right,
seems it's has Heterogeneous Storage feature during hadoop 2.6


btw, hadoop 2.7 support a new migirate tools like mover. which is used for archiving.

seems spark on yarn has lots of restriction ,especially in latest spark 1.6....need more time/effort to make it stable.


   

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
20 [报告]
发表于 2016-01-25 23:27 |只看该作者
回复 18# heguangwu


seems you are using tez?haha
Are u fans of Hortonworks?

   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP