免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: zhangzhh05
打印 上一主题 下一主题

[算法] 对Google算法优越性的一点小体会 [复制链接]

论坛徽章:
0
91 [报告]
发表于 2008-06-25 13:25 |只看该作者
原帖由 wwwsq 于 2008-6-25 13:19 发表



呼叫中心,只能算是“企业级应用”,用用J2EE那样的技术就足够了。后台么,用Oracle好了,反正企业有钱,我们省事。应用服务器么,用IBM的WebSphere吧,出了问题好和客户、IBM三方扯皮。

你要是用个My ...


恩不算多 如果算上中国区 肯德基3年(不算其他业务)的所有销售记录。 做一个分析, 你认为你能搞定? 解破每个动作。 计算订餐瓶颈在那里。靠你的db 要多久?

论坛徽章:
0
92 [报告]
发表于 2008-06-25 13:27 |只看该作者
原帖由 cx6445 于 2008-6-25 13:14 发表


可能你误会了,不需要技术咨询,呵呵!理论和实现是两回事!
你可以show一下你这方面的经验,不过如果你具有技术指导的资格,可能年薪几十万你不放在眼里。



友好讨论,友好讨论,呵呵~~

每个人所处行业不同,采用技术的时候,倾向也会有所不同。我的经验未必适合你们。互相讨论提高吧。

论坛徽章:
0
93 [报告]
发表于 2008-06-25 13:27 |只看该作者
原帖由 benjiam 于 2008-6-25 13:25 发表


恩不算多 如果算上中国区 肯德基3年(不算其他业务)的所有销售记录。 做一个分析, 你认为你能搞定? 解破每个动作。 计算订餐瓶颈在那里。靠你的db 要多久?



TB或PB级的数据?用map-reduce的模型可以吗?

论坛徽章:
0
94 [报告]
发表于 2008-06-25 13:27 |只看该作者
最后说一下 kfc 200格座席 在行业里是非常少的, 1000格座席起步。

论坛徽章:
0
95 [报告]
发表于 2008-06-25 13:32 |只看该作者
原帖由 benjiam 于 2008-6-25 13:27 发表
最后说一下 kfc 200格座席 在行业里是非常少的, 1000格座席起步。


kfc那么多座席干吗的?我从来没打过kfc的电话。除了百胜的宅急送。

论坛徽章:
0
96 [报告]
发表于 2008-06-25 13:38 |只看该作者
原帖由 benjiam 于 2008-6-25 13:27 发表
最后说一下 kfc 200格座席 在行业里是非常少的, 1000格座席起步。



从数据量来说,每天产生的数据不超过1000w条,我觉得比较适合用数据库搞定。具体采用什么数据库,以及是否用数据库,还要综合其他要求来看,比如速度要求,查询复杂度,数据使用频率等。

[ 本帖最后由 wwwsq 于 2008-6-25 13:41 编辑 ]

论坛徽章:
0
97 [报告]
发表于 2008-06-25 13:41 |只看该作者
原帖由 cx6445 于 2008-6-25 13:27 发表



TB或PB级的数据?用map-reduce的模型可以吗?

原始数据不多的。3年 一般是250*200*365*3 左右。节假日可能多1,2倍。

分解出来就多了  一般 10个分析点左右。 复杂的翻n倍。然后就做历史比较吧。 计算趋势和找弱点。类似数据挖掘了。 不过我们是给报表。


宅急送  上海北京各一个中心,其他各自为证的。 至于kfc 是不是走宅急送就不太清楚了。毕竟我是开发 不是实施。

[ 本帖最后由 benjiam 于 2008-6-25 13:44 编辑 ]

论坛徽章:
0
98 [报告]
发表于 2008-06-25 13:45 |只看该作者
原帖由 benjiam 于 2008-6-25 13:41 发表

原始数据不多的。一般是250*200*365*3 左右。
分解出来就多了 节假日可能多1,2倍。

宅急送  上海北京各一个中心,其他各自为证的。 至于kfc 是不是走宅急送就不太清楚了。毕竟我是开发 不是实施。



总共约5000w条数据,应该是可以用数据库解决的。

业务要求比较复杂,可以设不同的功能数据库服务器。

分析一般都是针对历史数据吧。把历史数据拷贝过去分析就是了,反正才5000w条记录。

系统的难点应该不是在于性能或者集群。我猜,难点应该是在业务功能的实现上,比如如何比较数据,如何挖掘数据。

[ 本帖最后由 wwwsq 于 2008-6-25 13:50 编辑 ]

论坛徽章:
0
99 [报告]
发表于 2008-06-25 13:49 |只看该作者
你们什么行业 每天几亿?

论坛徽章:
0
100 [报告]
发表于 2008-06-25 13:49 |只看该作者
原帖由 cx6445 于 2008-6-25 13:27 发表



TB或PB级的数据?用map-reduce的模型可以吗?

说到数据分析, 不得不提目前世界非常热门的OLAP及data mining技术. 这些技术都建立在数据仓库体系之上.
而目前世界上最大的数据仓库, 由沃尔码建立, 号称数据量达到了PB级别. 而数据挖掘技术的出现及首先应用, 就是IBM常讲的"啤酒与尿布"的故事,也是来自于该公司的应用案例.
也许很多人都知道,但偏偏有一些人不知道的事实, 就是该数据仓库恰恰是建立在关系型数据库之上的--NCR的Teradata数据库! 这也是目前世界上数据规模案例最高记录保持者.
目前数据仓库的存储模式发展,分为两种方向,一种是MOLAP,其本质是文件系统,另一种是ROLAP,其本质是关系型数据库. 而事实上,真正能够承担TB级以上数据量,而且能够支持10维以上数据模型的,只有ROLAP. 不过, 好的ROLAP数据库与常规的关系型数据库是不同的,它提供了针对OLAP的大量新技术,比如按列存储,位图索引,static表,中间汇总表自动生成及上下钻取操作的支持等,在这种数据库上进行海量数据的实时统计,性能比传统关系型提高数十倍. 至今为止,优秀的ROLAP关系型数据库有ncr的teradata, sysbase IQ, informix red brick.
至于某些人坚持认为可以在文件系统上建立数据仓库, 那还是拿出案例,拿出数据对比再说吧.
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP