话题背景:
云计算与大数据为计算机科学领域注入了前所未有的活力,而大数据的实时处理更是为海量数据处理和数据挖掘带来了崭新的契机。从某种意义上讲,传统大数据的批处理方式已经一定程度上解决了我们所面临的问题,然而,客户的要求是永不满足的。他们想要更多的数据、服务、价值以及更多的便利。随着数据量的增加,对实时响应时间的需求也在提高,原本承载着海量数据处理任务的批处理系统在实时计算处理方面越发显得乏力。
这么说的原因很简单,像Hadoop使用的MapReduce这样的数据批处理技术,其设计初衷并不是为了满足实时计算的需求。数据批处理系统与实时处理系统在需求上存在着本质的区别。要做到实时性,不仅需要及时地推送数据以便处理,还要将数据划分成尽可能小的单位,而像HDFS存储推送数据的能力已经远不能满足实时性的需求。
Apache Storm的出现扭转了传统数据批处理系统的劣势,成为了真正意义上的实时数据处理系统。Storm实时处理系统实现了一个可靠的、高容错性的实时分布式处理平台,那么这些听起来十分抽象的概念到底是如何实现的呢?
今天,我们一起聊聊关于分布式实时处理系统是如何部署实践的?
讨论问题:
1.大家都在哪些场景中需要处理大量的数据?处理这些数据最令人心烦的事情是什么?
2.大家都使用过哪些工具来处理大量数据(比如Hadoop、Spark、Storm,什么类型的都可以)?具体是如何运用的?
3.请大家结合自己的实际工作吐槽一下对这些工具有什么不满的地方,希望他们做出什么改进。
4.在你们的应用场景中,你们觉得处理性能和工具接口的易用性哪个更重要?
5.在实际工作中有遇到过对大量数据处理的实时性要求非常高的场景吗?如果有你是怎么解决的
活动时间:2016年7月26日——8月26日
活动奖励:
话题结束后,我们将选取5个优质回复,各奖励技术图书《分布式实时处理系统:原理、架构与实现》一本。
作者: 卢誉声
丛书名: 大数据技术丛书
出版社:机械工业出版社
ISBN:9787111539964
上架时间:2016-6-23
出版日期:2016 年6月
开本:16开
版次:1-1
所属分类:计算机 > 数据库 > 数据库理论 > 分布式数据库
内容简介:
全书分为3篇:第一篇详细讲解本书将要开发的分布式实时计算系统所涉及的相关技术,特别针对C++11的新特性着重介绍。第二篇剖析分布式计算系统编程细节,其中对每个重要的概念、模型和函数都加以阐述。第三篇主要关注实战用例,将编写数个极具实践价值的应用程序,为开发者提供参考。通过阅读本书,读者不仅能开发出一套基于C/C++实现的分布式实时计算系统,而且还可以以此学习和了解服务器编程接口设计以及UNIX服务器开发的多个重要主题,对未来实际应用与开发提供参考。
样章试读:
文前.pdf
(865.84 KB, 下载次数: 37)
——————————————————————————————————————————————————————
参与以上话题讨论,更有机会获得SACC 2016大会门票一张哦~
只为一场完美的技术盛宴!
作为国内最受欢迎的架构师盛会,一年一度的中国系统架构师大会将于10月27-29日在北京万达索菲特大饭店撼世来袭! 大会以"架构创新之路"为主题,云集了国内外顶尖专家,共同探讨云计算和大数据等技术背景下,如何通过架构创新及各种IT新技术来带动企业转型增效。本届大会共设置两个主场分享时段,24个技术交流专场时段;邀请来自互联网、电子商务、金融、电信、政府、行业协会等20多个领域,150多位技术专家及行业领袖来分享他们的经验;并将吸引4000多名系统运维、架构师、及各种企业的IT决策人士参会,为他们提供最具价值的交流平台。
【大会详情】
欢迎扫码关注SACC官方微信,获取最新信息!
|