send_linux 发表于 2013-09-22 13:56

大数据分析:如何做到点数成金?(获奖名单已公布-10-24)

获奖名单已公布,详情请看:http://bbs.chinaunix.net/thread-4102940-1-1.html

“大数据”到底是什么?这个概念乍看上去相当模糊,它似乎指的是数量庞大信息量巨大的数据。尽管这样的描述确实符合“大数据”的字面含义,但它并没有解释清楚大数据到底是什么。大数据常常被描述成已经大到无法用传统的数据处理工具进行管理和分析的极大的数据集。从网上我们可以得到一个被大多数人所认同的观点:当数据集已经发展到相当大的规模,常规的信息技术已无法有效地处理、适应数据集合的增长和演化时,大数据就应运而生了。换言之,数据集规模已大到难以用传统信息技术进行有效的管理,更不用说从中挖掘价值了。具体来说,难题主要在于数据的采集、存储、检索、共享、分析和数据可视化。

虽然概念上难以理解,但是大数据越来越多的渗入到了我们日常的生活,每天全球膨大的物流网络,如何管理和配送这些货物,离不开大数据下的最优化算法分析;越来越多的应用涉及到大数据,不幸的是所有大数据的属性,包括数量,速度,多样性等等都是描述了数据库不断增长的复杂性。
如何收集和整理和存储这些大数据呢?
如何分析这些大数据?
从这些大数据的分析中我们能够得到什么?

欢迎大家加入本话题的讨论,这次的话题是:
1、您目前所在的企业是否面对大数据的难题?
2、目前的大数据形式下,技术和规范哪个更重要?
3、谈谈您目前所在行业的大数据形式和业内解决方案

本期嘉宾:
ChinaUnix社区专家博主:五岳之巅(http://blog.chinaunix.net/uid/22414998.html)

活动时间:
2013.9.22-10.12

活动要求:
1、 要言之有物,不能低于20个字
2、 本次话题主要关注大数据技术和实践方面的心得体会和使用技巧,其他问题可能不做重点
         
讨论有奖:
活动结束后,我们会评选出5位积极参与话题讨论的网友奖励《大数据分析:点“数”成金》图书1本,对其他积极参与讨论的网友(回帖有参考价值)我们将奖励积分20分。

奖品信息:
大数据分析:点“数”成金
http://images.china-pub.com/ebook3800001-3805000/3802353/zcover.jpg
原书名:Big Data Analytics: Turning Big Data into Big Money
原出版社: Wiley
作者: (美)Frank J. Ohlhorst   
译者: 王伟军 刘凯 杨光
出版社:人民邮电出版社
ISBN:9787115324528
上架时间:2013-9-16
出版日期:2013 年9月

chszs 发表于 2013-09-22 15:43


1、您目前所在的企业是否面对大数据的难题?
是的。其实很多公司,只要上了一定规模,大多数都会面临大数据的难题。
区别在于面临的大数据难题是否紧迫,是否是亟待解决的,又或者是是否能立即带来效益的。

2、目前的大数据形式下,技术和规范哪个更重要?
显然是规范更为重要。原因有几点:
1)大数据技术已经在趋向于同一标准技术。
Hadoop是大数据事实上的标准解决方案。虽然它并非唯一的解决方案,但却是业界公认的解决方案,其它技术的影响力远远比不上Hadoop。
2)研发大数据技术的公司仅是少数,使用大数据技术的公司才是市场主体。
对于使用大数据技术的公司来说,显然对规范更为关心。
3)大数据技术已经很先进。
大数据技术在不断地演进,Hadoop也进入到了2.0时代,Hadoop生态圈的各种技术越来越成熟,使得我们无需再去担心大数据的技术问题。

3、谈谈您目前所在行业的大数据形势和业内解决方案
目前我公司在使用Cloudera发布的大数据方案(基于Hadoop)构建自己的大数据平台,该方案也是业内广为使用的方案。目前商业模式还在探索中,技术上先行一步。

xike2002 发表于 2013-09-22 17:04

好话题,支持!

laputa73 发表于 2013-09-22 17:28

hadoop虽然已经是业界标准,但是并非唯一
大数据的传统模式还有基于搜索引擎的.
象splunk,greenplum,Elasticsearch这些非hadoop的技术一样淘金.
从长远来看,有一个统一的接口规范最好.至少大数据的存储应该是个统一规范.

qingduo04 发表于 2013-09-22 20:31

欢迎大家加入本话题的讨论,这次的话题是:
1、您目前所在的企业是否面对大数据的难题?
   作为电信行业的经分系统,目前在省内需求和集团要求的前提下,引入了信令数据、爬虫数据,数据量过大,数据杂乱,给传统的数据库DB2等使用带来不便
由于引起怎么对大数据做分析的问题。
2、目前的大数据形式下,技术和规范哪个更重要?
   个人感觉先前应该是技术为主,毕竟大数据刚刚发展,对于大数据怎么玩,怎么使用,现在都不是很清楚,不如先摸摸看看是什么东西,然后再进行制定相关的规范。
3、谈谈您目前所在行业的大数据形式和业内解决方案
本期引入HADOOP和GP数据库,一个用来处理大数据,一个用来进行数据关联汇总。主要是针对流量方面的数据分析。
传统的电信行业(比如语音、短息等)趋于饱和,只能进行战略性的调整,对于互联网数据进行分析。

tomac_cu 发表于 2013-09-22 20:55

1、您目前所在的企业是否面对大数据的难题?
还没有

2、目前的大数据形式下,技术和规范哪个更重要?
技术更重要,现在还是百家争鸣,没有规范的时代。现在还没有强者,所以还是技术先进

3、谈谈您目前所在行业的大数据形式和业内解决方案
没有成熟方案


现有的大数据还只适合在实验室和非关键应用。所以还只是儿戏罢了。
什么淘宝呀,百度呀,google呀,都不是关键应用,离行业数据解决还差得很远。
目前还只能以传统数据库方式提供高可靠性的数据应用。

forgaoqiang 发表于 2013-09-22 21:54

本帖最后由 forgaoqiang 于 2013-09-26 01:46 编辑

YES 不错的话题~

1、您目前所在的企业是否面对大数据的难题?
大数据这个概念的确比较含糊的样子,其实我们遇到的大数据并不是体积大,而是数据内容量很大,比如用户行为审计记录一个终端设备每秒钟可能产生200条左右的记录,1000个终端就非常要命了。使用MySQL存储还要分区,这些真的没有很好地办法。查询速度很慢,但是加起来体积真不是很大。
2、目前的大数据形式下,技术和规范哪个更重要?
当前还是发展阶段吧,前期不用太注意规范吧,百家争鸣还是最好的,最后“自然选择”竞争出“适者生存”的作为标准就好了。当前来看采用Map-Reduce这样的大数据处理方式已经成为标准,基本上来说现在hadoop就是标准了。
3、谈谈您目前所在行业的大数据形式和业内解决方案
没有使用到大数据解决方案,服务器集群数量规模也比较少,但是估计以后可能会使用到。

hbsycw 发表于 2013-09-23 11:19

关注大数据,关注IT发展新趋势!

1、您目前所在的企业是否面对大数据的难题?
答:自己公司是电商,因此,面临着大数据难题。

2、目前的大数据形式下,技术和规范哪个更重要?
答:从个人经验来说,规范比技术重要,因为技术本身就是一种规范。但对大数据来说,目前主要还是体现在一种架构技术。

3、谈谈您目前所在行业的大数据形式和业内解决方案
答:有人说BIG DATA其实是个伪命题,因为,HOW SIZE IS THE BIG DATA? 显然,这很难回答。其实,IT是一种节约时间的技术。而,大数据就体现了时间的无限性与时间点的价值有效性的矛盾。面对随着时间不断增长的业务数据量,如何有效利用来改进业务,这就是大数据。对于电商来说,每天的订单数据、用户的访问数据、系统运行日志......,这些量都是很大的。对于传统的数据存储和分析处理来说,的确是很有挑战,但,解决方案,其实也很简单,“以空间换时间,分而治之即可”,HADOOP即是业内比较成熟的解决方案之一。

fengzhanhai 发表于 2013-09-23 13:22

大数据,数据量多大才算是大?这个对于不同的企业是没有统一的标准,也没有唯一的答案~ 数据量大就有价值吗,也未必~
如果一个企业拥有庞大的历史数据,但是没有贴合企业自身的数据业务分析模型,对这个企业来说不是一笔财富而是一堆废物,甚至会起到副作用,害人匪浅~
个人认为:如果想使大数据产生价值必须满足一下几个方面:
1、设定正确的数据分析模型;
2、有效的数据清洗规则以及存储规范;
3、合适的技术手段;
4、足够多的历史数据。
只有这样才能保证大数据能够给管理人员提供正确的决策、商业预警、经营策略以及公司战略规划,最终使得大数据成为一座名副其实的金矿~点石成金:time:

wuchou55 发表于 2013-09-23 14:28

1、您目前所在的企业是否面对大数据的难题?
答:每个公司的发展都需要用到大数据,对于新开发的公司来说遇到的问题有好些,比如如何管理文件系统层累积的元数据?处理不当的话会影响到系统的扩展能力和性能等。
2、目前的大数据形式下,技术和规范哪个更重要?
答:技术和规范两者都很重要,肯定是先把把技术搞好,再去搞规范。
页: [1] 2 3
查看完整版本: 大数据分析:如何做到点数成金?(获奖名单已公布-10-24)