免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: zhangzhh05
打印 上一主题 下一主题

[算法] 对Google算法优越性的一点小体会 [复制链接]

论坛徽章:
0
111 [报告]
发表于 2008-06-25 14:11 |只看该作者
原帖由 cx6445 于 2008-6-25 14:08 发表
每天数亿条记录现实中是不少见,ebay每天产生的日志全部入数据库,好象是1.2T一天。yahoo比这个数据量还大几倍,google不清楚,肯定也不会少。

我觉得,日志和交易数据记录,还是两个概念, 其重要性是不可比的.

论坛徽章:
0
112 [报告]
发表于 2008-06-25 14:15 |只看该作者
原帖由 zszyj 于 2008-6-25 14:09 发表

oracle适合做OLTP, 不适合做OLAP, 其OLAP组件, 其实是集成了原来的darwin express, 其本质还是MOLAP.
至于其RAC, 不要说100节点了, 就算是两节点,也达不到1+1=1.5的效果.
如果是我选的话, 我会考虑oracle做 ...


oracle的4节点rac,我们测过,性能略超teradata,性能基本成线性可扩,测试的权威性无可质疑,无论oracle还是teradata的原厂工程师参与整个过程,全部由美国本土开发人员进行技术技持。oracle rac的确不如teradata成熟,因为实际使用中小问题还是不少的。最重要得是它没有大规模生产用的先例。

[ 本帖最后由 cx6445 于 2008-6-25 14:18 编辑 ]

论坛徽章:
0
113 [报告]
发表于 2008-06-25 14:17 |只看该作者
原帖由 zszyj 于 2008-6-25 14:11 发表

我觉得,日志和交易数据记录,还是两个概念, 其重要性是不可比的.


的确重要性不等,不过在很多用户路径的计算中是不可少的,也是需求的一部份,不能因为需求相对不重要而不进行计算。

论坛徽章:
0
114 [报告]
发表于 2008-06-25 14:31 |只看该作者
原帖由 cx6445 于 2008-6-25 14:17 发表


的确重要性不等,不过在很多用户路径的计算中是不可少的,也是需求的一部份,不能因为需求相对不重要而不进行计算。



是的。这样一些非核心东西,往往才是决定你是否比别人优秀的地方。因为基础的核心的东西,大家都会做,都做得不差。基础都做不好的人,早就出局了。

比如淘宝,能做网上交易的公司不要太多,肯定也都做得correct。但是在如何做得好用上,就体现出了差别。连correct都做不到的公司,根本就不用去比较。

[ 本帖最后由 wwwsq 于 2008-6-25 14:34 编辑 ]

论坛徽章:
0
115 [报告]
发表于 2008-06-25 14:43 |只看该作者
原帖由 cx6445 于 2008-6-25 14:15 发表


oracle的4节点rac,我们测过,性能略超teradata,性能基本成线性可扩,测试的权威性无可质疑,无论oracle还是teradata的原厂工程师参与整个过程,全部由美国本土开发人员进行技术技持。oracle rac的确不如t ...

请问测试过sysbase IQ吗? 这也是个性能非常优秀, 但小问题不断的产品, 所以一直无法大量占领市场.

论坛徽章:
0
116 [报告]
发表于 2008-06-25 14:46 |只看该作者
原帖由 cx6445 于 2008-6-25 14:17 发表


的确重要性不等,不过在很多用户路径的计算中是不可少的,也是需求的一部份,不能因为需求相对不重要而不进行计算。

我的意思是, 因为其重要性不高, 交易日志进行过计算处理后, 其源数据文件是不需要长期保存的,最多保存一个月就可以清理了, 我们一般称这种为临时数据.
而交易数据记录, 因为其重要性,即使处理完了, 还是要永久保存, 这才是造成海量数据存储的主要原因, 我们称这种为关键数据.

论坛徽章:
0
117 [报告]
发表于 2008-06-25 14:47 |只看该作者
原帖由 zszyj 于 2008-6-25 14:43 发表

请问测试过sysbase IQ吗? 这也是个性能非常优秀, 但小问题不断的产品, 所以一直无法大量占领市场.


没有,没有sysbase的人才。

论坛徽章:
0
118 [报告]
发表于 2008-06-25 15:03 |只看该作者
原帖由 flw 于 2008-6-25 13:55 发表

奥运服务器死掉,是因为那套程序是花 3000 块钱从水木上找人做的。


还有这故事?看主页上是歌华有线做的,当时就想歌华是做有线电视,只知道做地收钱,肯定是外包了给其他小公司了。没有想到,更黑,竟然是水母上找人做的。嗯,看来建筑业的层层转包这里也有。真的是IT民工。

论坛徽章:
0
119 [报告]
发表于 2008-06-25 16:30 |只看该作者
晕,什么叫CGI ? 用C 写的Google  I 吗?
原帖由 zszyj 于 2008-6-23 11:50 发表

不要说1亿,即使是10亿行记录, 在数据库里按索引查找的话, 所花时间也不会超过1ms, 检测用户名明显就是按索引查找的, 因此也不会想得太神秘.
至于google网页显示速度快,那是因为它的WEB页面都是用CGI来生成的 ...

论坛徽章:
0
120 [报告]
发表于 2008-06-25 17:10 |只看该作者
原帖由 rollingpig 于 2008-6-25 16:30 发表
晕,什么叫CGI ? 用C 写的Google  I 吗?

笑。大笑。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP