免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 59225 | 回复: 0
打印 上一主题 下一主题

[Spark] 你不知道的Spark,将来会替代Hadoop? [复制链接]

论坛徽章:
4
IT运维版块每日发帖之星
日期:2015-08-04 06:20:00IT运维版块每日发帖之星
日期:2015-10-10 06:20:002015亚冠之阿尔艾因
日期:2015-11-08 10:27:01CU十四周年纪念徽章
日期:2020-11-05 14:10:23
1 [报告]
发表于 2015-10-30 10:27 |显示全部楼层
1. 有人说Spark就是内存版的MapReduce,对此你怎么看?
    这样说有点简单,spark提供了集群的分布式内存抽象,也就是所说的RDD,spark提供了RDD的两类操作,转换和动作,转换包括map,flatMap,filter,union,sample,join,groupByKey,reduceByKey,sortByKey等等,动作是返回结果,包括collect,reduce,count等,抽象层次更高,功能更多,调用更灵活。所处理的数据都是放在内存中,速度更快。
    mapreduce则抽象层次比较低,只有map,reduce两个基本功能。

2. 有人说Spark将来会替代Hadoop,你又怎么看?
    hadoop是一个生态系统,主要包括HDFS,mapredeuce,适合处理海量离线数据,他的分布是基于磁盘和IO的。
    spark的分布处理是基于内存的,速度更快。
    spark的出现,解决方案又多了一种选择,spark是可以架在hadoop和yarn上的,hadoop的生态中有很多部分,spark可以替代hadoop的一些功能,二者是可并存的。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP