yejia80550708 发表于 2017-08-07 19:08

【好书推荐】我走过最长的路:就是大数据的套路



获奖公布:
1.最佳优胜奖 (SACC 2017大会门票一张):cokeboL
2.获得技术图书《大数据之路 阿里巴巴大数据实践》:
heguangwu
Fl_wolf
sjf0115   
东风玖哥
tree_fox

请以上6位获奖人员在9月30日前将姓名、电话、邮箱、公司、职务、快递地址站短给yejia80550708 ,以便尽快给大家发放礼品。
话题背景:
大数据是什么?在过去的 5年里,恐怕没有另外一个词比大数据更高频;也没有另外一个概念如大数据一样,被纷繁解读,著书立说。
如果说互联网实现了人人互联和通信,并没有深度地协同计算,那么这样的一个大数据平台和架构就是一张升级的、智能的互联网。这是人类自己设计出来的复杂的信息处理系统,同时也将是真正意义上人类智力大联合的基础设施。这是一个伟大的蓝图,我们敬畏其复杂度和潜能。
在阿里巴巴集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“双11购物狂欢节”的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战…

话题讨论:
1、大数据及其应用价值有哪些?你所了解的领域有哪些大数据的应用?2、为什么很多公司的大数据相关业务都基于 Hadoop 方案?3、你对大数据平台架构技术选型与场景运用有什么见解?4、大数据思维有十大原理分别为:数据核心原理(从“流程”核心转变为“数据”核心)、数据价值原理(由功能是价值转变为数据是价值)、全样本原理(从抽样转变为需要全部数据样本)、关注效率原理(由关注精确度转变为关注效率)、关注相关性原理(由因果关系转变为关注相关性)、预测原理(从不能预测转变为可以预测)、信息找人原理(从人找信息,转变为信息找人)、机器找人原理(由人懂机器转变为机器更懂人)、电子商务智能原理(大数据改变了电子商务模式,让电子商务更智能)、定制产品原理(由企业生产产品转变为由客户定制产品)、对于这十大原理中的某一点或者某几点你有什么看法?谈谈你的理解和感受

本次话题讨论为开放式题目,不需要大家全部回答,挑自己喜欢的题目回答即可,谈一点自己对于大数据的其他见解亦可,在广度上不做要求,但希望所谈之点更有深度。


活动时间:
2017年8月7日—8月31日

活动奖励:
本期活动,我们将特设1个最佳优胜奖,送SACC2017大会门票一张;

同时,我们将会选取5个精彩回复,各送技术图书《大数据之路 阿里巴巴大数据实践》一本;


作者: 阿里巴巴数据技术及产品部出版社名称: 电子工业出版社ISBN编号: 9787121314384开本:16开版次:1分类:数据库 > 数据挖掘分析、架构构建> 阿里巴巴
购书入口:



样章试读:file:///C:/Users/aaa/Documents/tencent%20files/2504593583/filerecv/大数据之路:阿里巴巴大数据实践.pdf


SACC 2017 来啦~

2017中国系统架构师大会(SACC2017)将于10月19-21日在北京新云南皇冠假日酒店震撼来袭!
今年,大会以“云智未来”为主题,云集国内外顶级专家,围绕云计算、人工智能、大数据、移动互联网、产业应用等热点领域展开技术探讨与交流。本届大会共设置2大主会场,18个技术专场;邀请来自互联网、金融、制造业、电商等多个领域,100余位技术专家及行业领袖来分享他们的经验;并将吸引4000+人次的系统运维、架构师及IT决策人士参会,为他们提供最具价值的交流平台。

官网链接:http://sacc.it168.com/index.html#top

购票链接:http://sacc.it168.com/goupiao.html



欢迎扫码 关注SACC官方微信 ,获取最新信息!





-------------------------------------------------------------------------------


欢迎大家发帖讨论,分享是美德,也希望CU这个平台带给大家进步和成长,有任何问题,请站短联系!

技术讨论,请加QQ群:203848540

ChinaUnix公众微信:







nail78 发表于 2017-08-10 10:19

2、为什么很多公司的大数据相关业务都基于 Hadoop 方案?Hadoop相较于MapReduce和IBM的大型机有什么优势?
         
    这个话题说法是有问题的,Hadoop的框架最核心设计就是:HDFS和MapReduce。HDFS为海量数据提供了存储,MapReduce提供了计算的方法。Hadoop的框架中包含了MapReduce。



cjfeii 发表于 2017-08-10 10:53

本帖最后由 cjfeii 于 2017-08-10 10:55 编辑

占坑{:qq23:}
试读的链接放错了吧

cokeboL 发表于 2017-08-10 14:06

1、大数据及其应用价值有哪些?你所了解的领域有哪些大数据的应用?
   数据本身的应用价值是历史记载用以日后使用
   现在的大数据的价值主要是两方面:一是大大扩展了数据量,二是扩展了数据用途
   最常见的就属电商了吧,挖掘、推荐,还有游戏行业里行为分析等等
2、为什么很多公司的大数据相关业务都基于 Hadoop 方案?Hadoop相较于MapReduce和IBM的大型机有什么优势?
   选择hadoop:
   一是大数据相关技术门槛较高,绝大多数公司不具备自研整套的实力
   二是Hadoop技术成熟,有商业项目和历史积淀背书,生态链完善
   优势:
   首先同意前面楼层说的,hadoop本身就有MapReduce,这一点不具备可比性
   相对于IBM大型机的优势:
   一是hadoop集群扩展更强
   二是hadoop对硬件要求不高,普通机器就可以,门槛低成本划算
3、你对大数据平台架构技术选型与场景运用有什么见解?
    hadoop生态链里根据自身需要选择就可以了
    比如只需要静态分析的,就hadoop就够了
    有挖掘需求的,加上spark
    有的做日志系统的、推送的,用kafka之类的
    看具体需求吧
4、大数据思维有十大原理分别为:
    数据核心原理(从“流程”核心转变为“数据”核心)
      ——以前是产品经理定义产品行为,以市场为出发点设计产品,大数据关联起来,都要先收集数据
    数据价值原理(由功能是价值转变为数据是价值)
      ——我不是很赞同所有产品都这样,很多跟风的公司开始搞大数据,根本不看看自己产品的实际情
      况,收集来的数据也没价值或者用不到,有的老板可能觉得先收集着,万一以后有用呢?可是
      绝大多数都没用,而且增加了研发成本
    全样本原理(从抽样转变为需要全部数据样本)
      ——技术决定吧,以前的存储方式和数据量级可能会导致全样本采集的难度太大,而现在的大数据
      相关技术已经突破了这个瓶颈
    关注效率原理(由关注精确度转变为关注效率)
      ——当量级小的时候,精确度计算也简单高效,量大了(数据量和业务量都大了),要先保证服务
      可用,而且由于数据量级大了,小误差是可以忽略的,所以效率优先
    关注相关性原理(由因果关系转变为关注相关性)
      ——电商为例,行为分析、推荐系统,都是要进行数据挖掘,从而转化为价值,挖掘本身都是基于
      相关性
    预测原理(从不能预测转变为可以预测)
      ——样本统计了行为分析了知道别人干了啥可能还想干啥,当然就可以预测了,统计学的出发点就
      是为了分析、预测吧
    信息找人原理(从人找信息,转变为信息找人)
        机器找人原理(由人懂机器转变为机器更懂人)
        电子商务智能原理(大数据改变了电子商务模式,让电子商务更智能)
        定制产品原理(由企业生产产品转变为由客户定制产品)
      ——这些都和前面想说的差不多,都是关联性,关联性分析的基础就是数据

fenyun689 发表于 2017-08-16 09:33

本帖最后由 fenyun689 于 2017-08-16 09:35 编辑

现在大数据应用越来越火了。从大量的数据中抽取有价值的信息。
我们公司应用是处理试验数据,刚开始使用。
通过从现场运行时,产生大量的试验数据中找出提高产品性能,质量的信息。以及产品在不同环境下性能,寿命变化。
大数据分析客户信息可以从大批量的潜在客户中找出高价值的客户,分析用户习惯,制定资费标准。增加用户粘性,忠诚度。
大数据应用与人工智能本身就是一体的。只有这样才能发挥大数据应用的作用。

也就知道这么多。

Fl_wolf 发表于 2017-08-16 12:01

1、大数据及其应用价值有哪些?你所了解的领域有哪些大数据的应用?大数据的应用价值就在于发现与实践,好比马云说过,你知道中国平均胸围最大的省是哪里吗?你知道最小的是哪里吗?我告诉你是浙江。。(原话)这样可以把平均发货量的多少 大小成本都能计算在内。互联网领域的大数据当然是用户的习性,这个是所有互联网数据分析师最喜欢研究,也是最难研究的一个标签了。我了解到的阿里淘宝的大数据,网易新闻的大数据都还是做的不错的。2、为什么很多公司的大数据相关业务都基于 Hadoop 方案?Hadoop是一个大数据分析的装备吧。但是现在已经开始有人觉得ha不行了。3、你对大数据平台架构技术选型与场景运用有什么见解?架构选型了解不太多,但是重点就是分析的思路,不同用户群要整理出来,必须了解用户习性。

sjf0115 发表于 2017-08-16 13:42

1 大数据及其应用价值有哪些?你所了解的领域有哪些大数据的应用?

(1) 大数据能够帮助企业分析大量数据而进一步挖掘市场潜在的机会以及细分市场,然后对每个群体采取个性化的行动。目前,我们部门会充分利用各个业务线行为日志进行个性化推荐,给用户推荐可能感兴趣的旅游产品,进而提高订单转换率.
(2) 当前,很多公司还是更多依赖个人经验和直觉做决策,而不是基于数据。在信息有限、获取成本代价比较高的时代,这样做决策还是情有可原的,但是目前处在大数据时代,就必须利用数据来做决策。目前我们部门收集公司各个业务线的行为日志,经过筛洗之后,做一些细粒度的分析统计供高层进行下一步的决策.

2 为什么很多公司的大数据相关业务都基于 Hadoop 方案?

目前而言,对于中小型公司来说,都会使用Hadoop解决方案,也有可能会使用Spark,但是使用Hadoop的公司还是占多数的.
(1) 成本问题
Hadoop是架构在廉价的硬件服务器上,不需要非常昂贵的硬件做支撑.
(2) 生态圈
Hadoop有成熟并活跃的生态圈,资料很多,如果出现问题,我们可以很容易根据前人的足迹来解决,而不是摸着石头过河。

3 你对大数据平台架构技术选型与场景运用有什么见解?

(1) 数据采集
负责从各节点上实时采集数据,选用Flume来实现.或者使用Sqoop可以将一个关系型数据库(例如mysql等)中的数据导进到Hadoop的HDFS中.
(2) 数据接入
由于采集数据的速度和数据处理的速度不一定同步,因此添加一个消息中间件来作为缓冲,选用Kafka
(3) 实时计算
对采集到的数据进行实时分析,选用Spark或者Storm
(4) 离线计算
对采集到的数据可以进行持久化存储在HDFS中,进行离线分析统计,选用MapReduce/Hive

<大数据之路 阿里巴巴大数据实践> 书不错 拜读

东风玖哥 发表于 2017-08-17 16:14

本帖最后由 东风玖哥 于 2017-08-17 16:37 编辑

1、大数据及其应用价值有哪些?你所了解的领域有哪些大数据的应用?
大数据的价值在于客户群体细分和发现隐藏线索。

关于客户群体细分我可以举一个缺德的例子:电商根据大数据判断哪些买家退货较少,然后残次品都发给这些买家。

2、为什么很多公司的大数据相关业务都基于 Hadoop 方案?
(一)高可靠性。Hadoop按位存储和处理数据的能力值得信赖;
(二)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中
(三)高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快
(四)高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配

3、你对大数据平台架构技术选型与场景运用有什么见解?
Hadoop和Spark都是Apache推出的大数据框架,两者的区别在于解决问题的层面不同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。而Spark则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。

因此两者通常可以配合使用,在Hadoop的HDFS上运行Spark是最好的大数据平台架构技术选型。

heguangwu 发表于 2017-08-17 17:38

为什么很多公司的大数据相关业务都基于 Hadoop 方案?
很多人都会回答对硬件要求不高,普通机器就可以,事实上很少有企业会在普通PC上运行Hadoop集群,大多也是在服务器上运行,所以硬件的要求个人觉得并不是决定的关键因素
首先hadoop方案并不说是MapReduce,而是整个hadoop生态圈,对照可以看hortonworks的HDP整个协议栈就知道了,包括实时流计算storm、内存计算spark、结构化查询Hive/sparkSQL,安全组件ranger,数据工作流flume/sqoop/kafka等,所以hadoop已经是一个庞大的生态圈,丰富的社区支持,你想要的功能都有,而且还比较成熟,所以选择hadoop肯定比选择专有软件更好

你对大数据平台架构技术选型与场景运用有什么见解?
如果你仔细观察了,大多数的公司的大数据平台架构几乎类似或相差不大,这个其实也是行业成熟的经验了,虽然大的方向一样,但针对应用的特点我们还是要做不同的配置优化,同时做相应的测试来看平台是否能满足需求,最主要的是团队人员能否把控整个平台,团队里要有合适的运维人员,要时刻监控平台的metrix,不要等出大问题无法解决或解决时间过长
页: [1]
查看完整版本: 【好书推荐】我走过最长的路:就是大数据的套路