获奖详情:http://bbs.chinaunix.net/thread-4245932-1-1.html
话题背景:
生活离不开水,同样离不开数据,我们被数据包围,在数据中生活。当数据越来越多时,就成了大数据。 想要理解大数据,就需要理解大数据相关的查询、处理、机器学习、图计算和统计分析等,Spark 作为新一代轻量级大数据快速处理平台,集成了大数据相关的各种能力,是理解大数据的首选。 现在,让我们以向大师致敬的方式开始学习之旅,向Doug Cutting 和Matei Zaharia 两位大师致敬! 什么是Spark?Spark作为Apache 顶级的开源项目,是一个快速、通用的大规模数据处理引擎,和Hadoop 的MapReduce 计算框架类似,但是相对于MapReduce,Spark 凭借其可伸缩、基于内存计算等特点,以及可以直接读写Hadoop 上任何格式数据的优势,进行批处理时更加高效,并有更低的延迟。相对于“ one stack to rule them all ”的目标,实际上,Spark 已经成为轻量级大数据快速处理的统一平台,各种不同的应用,如实时流处理、机器学习、交互式查询等,都可以通过Spark 建立在不同的存储和运行系统上,下面我们来具体认识一下Spark。
讨论话题:
1、Spark在大数据领域的影响力越来越强,采用Spark解决方案的公司也越来越多,那么问题来了,为什么我们国家搞不出Spark这样的技术?为什么高大上的技术大多在美国?
2、请对比分析MLlib库与Apache Mahout库
3、在Spark开发中使用Scala好?还是使用Java好?你的理由是?
说明:可任选1题或多题回答,回答越有深度越容易中奖。
讨论时间
2016年3月3日至2016年4月3日
活动奖励
活动结束后将选取4名讨论精彩的童鞋,每人赠送一本《Spark核心技术与高级应用》图书作为奖励。
奖品简介
作者: 于俊 向海 代其锋 马海平
丛书名: 大数据技术丛书
出版社:机械工业出版社
出版日期:2016 年1月
开本:16开
页码:300
版次:1-1
当当
内容简介
于俊、向海、代其锋、马海平编写的《Spark核 心技术与高级应用》是spark领域少有的专注于核心 原理与深度应用的*作,由科大讯飞和百分点科技的 4位大数据专家撰写。不仅细致介绍了spark的程序开 发、编程模型、作业执行解析等基础知识,还深度讲 解了spark sQL、sparkML、spark stteaming等大量 内部模块和周边模块的原理与使用。除此之外,还从 管理和性能优化的角度对spark进行了深入探索。
|