平台论坛博客文库

› 论坛 › IT运维 › Hadoop和大数据技术 › 你不知道的Spark，将来会替代Hadoop？

[Spark] 你不知道的Spark，将来会替代Hadoop？ [复制链接]

nail78

白手起家

论坛徽章:: 4

1楼 [报告]

发表于 2015-10-30 10:27 |显示全部楼层

1. 有人说Spark就是内存版的MapReduce，对此你怎么看？
这样说有点简单，spark提供了集群的分布式内存抽象，也就是所说的RDD，spark提供了RDD的两类操作，转换和动作，转换包括map,flatMap,filter,union,sample,join,groupByKey,reduceByKey,sortByKey等等，动作是返回结果，包括collect,reduce,count等，抽象层次更高，功能更多，调用更灵活。所处理的数据都是放在内存中，速度更快。
mapreduce则抽象层次比较低，只有map,reduce两个基本功能。

2. 有人说Spark将来会替代Hadoop，你又怎么看？
hadoop是一个生态系统，主要包括HDFS，mapredeuce,适合处理海量离线数据，他的分布是基于磁盘和IO的。
spark的分布处理是基于内存的，速度更快。
spark的出现，解决方案又多了一种选择，spark是可以架在hadoop和yarn上的，hadoop的生态中有很多部分，spark可以替代hadoop的一些功能，二者是可并存的。

返回列表

Chinaunix › 论坛 › IT运维 › Hadoop和大数据技术 › 你不知道的Spark，将来会替代Hadoop？