免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: Gray1982
打印 上一主题 下一主题

[Hadoop&HBase] 【讨论】海量数据分析之Hadoop(获奖名单已公布-2012-5-28) [复制链接]

论坛徽章:
0
101 [报告]
发表于 2012-05-14 12:48 |只看该作者
回复 101# bbjmmj


    如果没有技术创新 谁也不会想到啤酒和尿布会有关联

论坛徽章:
9
技术图书徽章
日期:2014-10-14 15:48:13数据库技术版块每日发帖之星
日期:2015-06-04 22:20:00数据库技术版块每日发帖之星
日期:2015-06-10 22:20:00数据库技术版块每日发帖之星
日期:2015-06-11 22:20:00数据库技术版块每日发帖之星
日期:2015-06-13 22:20:00IT运维版块每日发帖之星
日期:2015-09-22 06:20:00IT运维版块每日发帖之星
日期:2015-12-08 06:20:00综合交流区版块每日发帖之星
日期:2016-02-02 06:20:00IT运维版块每日发帖之星
日期:2016-07-25 06:20:00
102 [报告]
发表于 2012-05-14 13:04 |只看该作者
本帖最后由 bbjmmj 于 2012-05-14 14:07 编辑
kns1024wh 发表于 2012-05-14 12:48
回复 101# bbjmmj


啤酒+尿布可能是个错误的销售策略,如果两者分开放的话,顾客可能买了啤酒同时买可乐,买了尿布同时买卫生巾,从食品柜到卫生用品柜,路过玩具柜,还可能顺便抓两件玩具。商业数据的分析需要更精细,而HADOOP的关键字统计法实在太粗略了。啤酒尿布的例子并不能证明HADOOP对企业有用处,全世界所有超市的商品种类加在一起,也没有互联网关键字多,超市销售分析,数据库足以承载,而且可以更加精确。

论坛徽章:
0
103 [报告]
发表于 2012-05-14 14:53 |只看该作者
回复 93# bbjmmj


你说几个海量数据用磁带机的公司呗
再说几个替代Hadoop的开源产品呗


   

论坛徽章:
0
104 [报告]
发表于 2012-05-14 14:58 |只看该作者
bbjmmj 发表于 2012-05-14 13:04
啤酒+尿布可能是个错误的销售策略,如果两者分开放的话,顾客可能买了啤酒同时买可乐,买了尿布同时买卫 ...


数据挖掘和分析应用有企业经营中是很正常的现象,咱就不用讨论了,因为用其它的也能分析出来,不一定是Hadoop。
咱就先对Hadoop的优化谈下呗,至于它的好坏可以先不用说。

论坛徽章:
9
技术图书徽章
日期:2014-10-14 15:48:13数据库技术版块每日发帖之星
日期:2015-06-04 22:20:00数据库技术版块每日发帖之星
日期:2015-06-10 22:20:00数据库技术版块每日发帖之星
日期:2015-06-11 22:20:00数据库技术版块每日发帖之星
日期:2015-06-13 22:20:00IT运维版块每日发帖之星
日期:2015-09-22 06:20:00IT运维版块每日发帖之星
日期:2015-12-08 06:20:00综合交流区版块每日发帖之星
日期:2016-02-02 06:20:00IT运维版块每日发帖之星
日期:2016-07-25 06:20:00
105 [报告]
发表于 2012-05-14 15:30 |只看该作者
Gray1982 发表于 2012-05-14 14:53
回复 93# bbjmmj


据说好多商户有上万盘磁带,好变态  
hadoop至少目前为止还不适合商业环境使用,因为需要JAVA编程,而它分析的数据也太过粗略,不适合商业应用,仅适合提供些不太准确的搜索结果。商业上用的是数据仓库。
数据分析是很复杂的数学,听说有个sublinear算法。

论坛徽章:
9
技术图书徽章
日期:2014-10-14 15:48:13数据库技术版块每日发帖之星
日期:2015-06-04 22:20:00数据库技术版块每日发帖之星
日期:2015-06-10 22:20:00数据库技术版块每日发帖之星
日期:2015-06-11 22:20:00数据库技术版块每日发帖之星
日期:2015-06-13 22:20:00IT运维版块每日发帖之星
日期:2015-09-22 06:20:00IT运维版块每日发帖之星
日期:2015-12-08 06:20:00综合交流区版块每日发帖之星
日期:2016-02-02 06:20:00IT运维版块每日发帖之星
日期:2016-07-25 06:20:00
106 [报告]
发表于 2012-05-14 15:31 |只看该作者
Gray1982 发表于 2012-05-14 14:58
数据挖掘和分析应用有企业经营中是很正常的现象,咱就不用讨论了,因为用其它的也能分析出来,不一定是 ...


我不会JAVA,弄不了HADOOP。

论坛徽章:
0
107 [报告]
发表于 2012-05-14 15:36 |只看该作者
回复 106# bbjmmj


    那么多磁带,能放多少数据,需要多少设备????这成本和相对服务器相对呢?
Hadoop确实是用JAVA来开,但计算的精确否还得看开发人员的水平,这和用什么语言开发关系大吗???
其它的不清楚,但Hadoop用来分析日志在企业中还是常见的。

论坛徽章:
0
108 [报告]
发表于 2012-05-14 15:38 |只看该作者
bbjmmj 发表于 2012-05-14 15:31
我不会JAVA,弄不了HADOOP。


兄弟我也不会Java,所以我不会二次开发。如果你只是使用的话,用Python就可以了嘛,一样调用的

论坛徽章:
0
109 [报告]
发表于 2012-05-14 15:48 |只看该作者
回复 108# Gray1982


    分析日志 确实是hadoop的主要用处,
   
    如果用来分析apache的logs 是不是有点太过复杂

论坛徽章:
0
110 [报告]
发表于 2012-05-14 15:52 |只看该作者
回复 110# kns1024wh

现在很多日志都是自定义的了, 所以都有自己的格式。用Pig Python 写出需要的字段就OK
不会复杂的,只要是自己定义的日志模式,都很简单的了
   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP