123 / 3 页下一页

[Spark] 你不知道的Spark，将来会替代Hadoop？ [复制链接]

zymh_zy

丰衣足食

论坛徽章:: 1

11楼 [报告]

发表于 2015-11-02 11:33 |只看该作者

新技术概念太多了，好多都不认识了。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

caozs

稍有积蓄

论坛徽章:: 0

12楼 [报告]

发表于 2015-11-03 08:42 |只看该作者

新的平台固然很好，但最烦这种动不动就拿出一套新语言的，什么scalar，有必要么？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yybmsrs

小富即安

论坛徽章:: 78

13楼 [报告]

发表于 2015-11-03 18:41 |只看该作者

用到的概念接近就直接拿来开发了，scala方便点吧

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

craaazy123

稍有积蓄

论坛徽章:: 6

14楼 [报告]

发表于 2015-11-03 21:51 |只看该作者

这两个问题基本可以去看看spark官方的faq和history／changelog。
这些文档都是最适合初学者迅速了解spark，其中changelog比较适合有经验的开发者跟进项目，对新的feature能够有个快速了解。
spark.apache.org/faq.html

1. 有人说Spark就是内存版的MapReduce，对此你怎么看？
Spark is:
1). fast／快速
2). a general processing engine／处理引擎
3). compatible with hadoop data／与hadoop格式数据兼容，也就是说兼容hadoop生态系统的产品，如hive，hbase等
4). designed to perform both batch processing（similar to mapreduce） and new workloads(streaming, interactive queries and machine learning)／批处理（与mapreduce相似），流处理，交互式查询和机器学习。
以上从faq中第一个答案中抽出来的，大致就可以了解spark是个什么玩意，可以做些什么事情了。

再往下看你就能看到，用scala编写，提供python，java api，和一些学习资源。
值得注意的是streaming中的micro-batching，比较新哈，接着答案对这个新词进行了一番解释，应用场景及原理。

好了，说正题：
hadoop要解决的问题，简单说就是数据大得单台机器没办法存储，没办法处理。而hadoop的思想就是把计算进行传输，数据不动，因为数据很大，计算程序很小，网络开销自然小。mapreduce框架能并行处理数据，只有少数数据在网络中传输，所以能提高数据处理效率和速度。

关于Spark这里有篇论文，3w.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf (发不了链接，把3w换成www)
看到Introduction第二段第一、二句：
Although current frameworks provide numerous abstractions for accessing a cluster’s computational resources, they lack abstractions for leveraging distributed memory. This makes them inefficient for an important class of emerging applications: those that reuse intermediate
results across multiple computations.
随便翻译一下，中文组织能力不是很强，见笑

尽管当前框架提供了大量访问集群计算资源的抽象层（接口），但却缺乏利用分布式内存的抽象层（接口）。对于某些类型的应用却不是那么高效，这些应用需要重复利用分布式计算的中间值。
可见spark解决hadoop的痛点是，hadoop的计算数据都是要存hdfs中的，也就是要写到硬盘中，而有些应用要重复利用这些数据，那么要重复从硬盘读取速度自然会比较慢。spark数据模型时rdd,论文中将得非常详细，这里就不瞎扯了。

我个人也觉得内存计算是今后的趋势，也很推崇。记得年初的时候特别欣赏sap的hana内存数据库，还投了sap的简历，把自己对内存数据库的一些想法和面试官聊了，顺利的通过了几轮面试，不过最后一轮还是败下阵了。

2. 有人说Spark将来会替代Hadoop，你又怎么看？
技术领域里，永远都会有极端分子，什么语言是最好的，什么框架是最好的。
我觉得Spark和Hadoop就像docker和openstack，各有各的优势，各有各的应用场景和市场。
也许有一天，又会有人出来说xxx将会替代spark。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

xpk

白手起家

论坛徽章:: 0

15楼 [报告]

发表于 2015-11-04 10:18 |只看该作者

1. 有人说Spark就是内存版的MapReduce，对此你怎么看？
这个我赞同，因为spark属于那种内存计算型的架构，是对mapreduce不足的改进。
2. 有人说Spark将来会替代Hadoop，你又怎么看？
首先谁去谁一直是一个伪命题；没有哪个技术方案特别显著可以替代另一个；就目前Spark 和Hadoop的差距而言，他们的继续在相应的合适的技术方案在使用。
Spark框架的底层存储可以选用HDFS，也可以用其他的。但是Spark 运行的模式里有Standalone，Yarn，Mesos。其中Yarn也是Hadoop的组件。
而且Hadoop组件很多。不是那么随便可以替代的。

另：楼主我很喜欢这本书请考虑下；另我参加过多次这种活动，从没拿到过书。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

快乐的土豆

稍有积蓄

论坛徽章:: 1

16楼 [报告]

发表于 2015-11-05 11:18 |只看该作者

1. 有人说Spark就是内存版的MapReduce，对此你怎么看？
==========================================
不太准确，M/R本来是一种计算模式（及其实现），Spark走的是DAG的路子，模拟/实现 M/R不成问题，但是它拥有比M/R更丰富的计算模式支持。
或者，说spark是m/r内存威力加强版更合适一些。

2. 有人说Spark将来会替代Hadoop，你又怎么看？
========================================
毕竟spark比hadoop快很多方便很多，大家正在尝试Spark来弥补Hadoop的一些劣势，这个趋势是显而易见的，但是Hadoop已经是一个很成熟有众多工业范例在那里的成熟社区，Spark还需要发展壮大，也许，很有可能，过两年有一个新的工具取代Spark而替代了Hadoop也说不定，技术日新月异，谁知道呢？