忘记密码   免费注册 查看新帖 |

ChinaUnix.net

  平台 论坛 博客 认证专区 大话IT 徽章 文库 自测 下载 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
楼主: sck940210

[Spark] 你不知道的Spark,将来会替代Hadoop? [复制链接]

论坛徽章:
1
2015年迎新春徽章
日期:2015-03-04 09:54:45
发表于 2015-11-02 11:33 |显示全部楼层
新技术概念太多了,好多都不认识了。。

论坛徽章:
0
发表于 2015-11-03 08:42 |显示全部楼层
新的平台固然很好,但最烦这种动不动就拿出一套新语言的,什么scalar,有必要么?

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
发表于 2015-11-03 09:24 |显示全部楼层
回复 12# caozs
scala其实也不是新语言,出来很久了,国外高校很多都有开设这么课程
Spark程序并不必须用scala编写,可以用Java、python等其它语言来做


   

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
发表于 2015-11-03 09:24 |显示全部楼层
回复 12# caozs
scala其实也不是新语言,出来很久了,国外高校很多都有开设这么课程
Spark程序并不必须用scala编写,可以用Java、python等其它语言来做


   

论坛徽章:
78
双子座
日期:2013-10-15 08:50:09天秤座
日期:2013-10-16 18:02:08白羊座
日期:2013-10-18 13:35:33天蝎座
日期:2013-10-18 13:37:06狮子座
日期:2013-10-18 13:40:31双子座
日期:2013-10-22 13:58:42戌狗
日期:2013-10-22 18:50:04CU十二周年纪念徽章
日期:2013-10-24 15:41:34巨蟹座
日期:2013-10-24 17:14:56处女座
日期:2013-10-24 17:15:30双子座
日期:2013-10-25 13:49:39午马
日期:2013-10-28 15:02:15
发表于 2015-11-03 18:41 |显示全部楼层
用到的概念接近就直接拿来开发了,scala方便点吧

论坛徽章:
5
CU大牛徽章
日期:2013-05-20 10:43:41IT运维版块每日发帖之星
日期:2016-01-27 06:20:00CU大牛徽章
日期:2013-05-20 10:44:16CU大牛徽章
日期:2013-05-20 10:44:06IT运维版块每日发帖之星
日期:2016-07-29 06:20:00
发表于 2015-11-03 21:51 |显示全部楼层
这两个问题基本可以去看看spark官方的faq和history/changelog。
这些文档都是最适合初学者迅速了解spark,其中changelog比较适合有经验的开发者跟进项目,对新的feature能够有个快速了解。
spark.apache.org/faq.html

1. 有人说Spark就是内存版的MapReduce,对此你怎么看?
Spark is:
1). fast/快速
2). a general processing engine/处理引擎
3). compatible with hadoop data/与hadoop格式数据兼容,也就是说兼容hadoop生态系统的产品,如hive,hbase等
4). designed to perform both batch processing(similar to mapreduce) and new workloads(streaming, interactive queries and machine learning)/批处理(与mapreduce相似),流处理,交互式查询和机器学习。
以上从faq中第一个答案中抽出来的,大致就可以了解spark是个什么玩意,可以做些什么事情了。

再往下看你就能看到,用scala编写,提供python,java api,和一些学习资源。
值得注意的是streaming中的micro-batching,比较新哈,接着答案对这个新词进行了一番解释,应用场景及原理。

好了,说正题:
hadoop要解决的问题,简单说就是数据大得单台机器没办法存储,没办法处理。而hadoop的思想就是把计算进行传输,数据不动,因为数据很大,计算程序很小,网络开销自然小。mapreduce框架能并行处理数据,只有少数数据在网络中传输,所以能提高数据处理效率和速度。

关于Spark这里有篇论文,3w.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf (发不了链接,把3w换成www)
看到Introduction第二段第一、二句:
Although current frameworks provide numerous abstractions for accessing a cluster’s computational resources, they lack abstractions for leveraging distributed memory. This makes them inefficient for an important class of emerging applications: those that reuse intermediate
results across multiple computations.
随便翻译一下,中文组织能力不是很强,见笑
尽管当前框架提供了大量访问集群计算资源的抽象层(接口),但却缺乏利用分布式内存的抽象层(接口)。对于某些类型的应用却不是那么高效,这些应用需要重复利用分布式计算的中间值。
可见spark解决hadoop的痛点是,hadoop的计算数据都是要存hdfs中的,也就是要写到硬盘中,而有些应用要重复利用这些数据,那么要重复从硬盘读取速度自然会比较慢。spark数据模型时rdd,论文中将得非常详细,这里就不瞎扯了。

我个人也觉得内存计算是今后的趋势,也很推崇。记得年初的时候特别欣赏sap的hana内存数据库,还投了sap的简历,把自己对内存数据库的一些想法和面试官聊了,顺利的通过了几轮面试,不过最后一轮还是败下阵了。

2. 有人说Spark将来会替代Hadoop,你又怎么看?
技术领域里,永远都会有极端分子,什么语言是最好的,什么框架是最好的。
我觉得Spark和Hadoop就像docker和openstack,各有各的优势,各有各的应用场景和市场。
也许有一天,又会有人出来说xxx将会替代spark。

论坛徽章:
0
发表于 2015-11-04 10:18 |显示全部楼层
1. 有人说Spark就是内存版的MapReduce,对此你怎么看?
这个我赞同,因为spark属于那种内存计算型的架构,是对mapreduce不足的改进。
2. 有人说Spark将来会替代Hadoop,你又怎么看?
首先 谁去谁一直是一个伪命题;没有哪个技术方案特别显著可以替代另一个;就目前Spark 和Hadoop的差距而言,他们的继续在相应的合适的技术方案在使用。
Spark框架的底层存储可以选用HDFS,也可以用其他的。但是Spark 运行的模式里有Standalone,Yarn,Mesos。 其中Yarn也是Hadoop的组件。
而且Hadoop组件很多。不是那么随便可以替代的。

另:楼主 我很喜欢这本书 请考虑下; 另 我参加过多次这种活动 ,从没拿到过书。
   

论坛徽章:
1
2015小元宵徽章
日期:2015-03-06 15:57:20
发表于 2015-11-05 11:18 |显示全部楼层
1. 有人说Spark就是内存版的MapReduce,对此你怎么看?
==========================================
不太准确,M/R本来是一种计算模式(及其实现),Spark走的是DAG的路子,模拟/实现 M/R不成问题,但是它拥有比M/R更丰富的计算模式支持。
或者,说spark是m/r内存威力加强版更合适一些。



2. 有人说Spark将来会替代Hadoop,你又怎么看?
========================================
毕竟spark比hadoop快很多方便很多,大家正在尝试Spark来弥补Hadoop的一些劣势,这个趋势是显而易见的,但是Hadoop已经是一个很成熟有众多工业范例在那里的成熟社区,Spark还需要发展壮大 , 也许,很有可能,过两年有一个新的工具取代Spark而替代了Hadoop也说不定,技术日新月异,谁知道呢?

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
发表于 2015-11-20 23:20 |显示全部楼层
CU在新技术方面讨论不怎么活跃啊,感觉有关大数据、分布式系统之类的都少有人讨论,或许都在专门的论坛上讨论了
像Spark之类的其实都已经不算很新,而是比较流行的技术在CU讨论都不算多

论坛徽章:
9
IT运维版块每日发帖之星
日期:2015-08-27 06:20:00IT运维版块每日发帖之星
日期:2015-10-14 06:20:00IT运维版块每日发帖之星
日期:2015-10-23 06:20:00IT运维版块每日发帖之星
日期:2015-11-22 06:20:00操作系统版块每周发帖之星
日期:2015-12-02 15:01:04白银圣斗士
日期:2015-12-07 18:37:03数据库技术版块每日发帖之星
日期:2015-12-10 06:20:00数据库技术版块每周发帖之星
日期:2016-02-03 16:55:092017金鸡报晓
日期:2017-01-10 15:19:56
发表于 2015-12-08 17:09 |显示全部楼层
看来回贴的不是很踊跃啊
您需要登录后才可以回帖 登录 | 注册

本版积分规则

DTCC2018购票6.8折优惠进行时

中国数据库技术大会是国内数据库及大数据领域规模最大、最受欢迎的技术交流盛会。 2018年5月10-12日,第九届中国数据库技术大会将如约而至。本届大会以“数领先机•智赢未来”为主题,设定2大主会场及20个技术专场,邀请来自国内外互联网、金融、教育等行业百余位技术专家,共同探讨Oracle、MySQL、NoSQL、大数据等领域的前瞻性热点话题与技术。
----------------------------------------
优惠时间:2018年2月13日前

报名链接>>
  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802020122
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP