免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: zhangzhh05
打印 上一主题 下一主题

[算法] 对Google算法优越性的一点小体会 [复制链接]

论坛徽章:
0
81 [报告]
发表于 2008-06-25 12:15 |只看该作者
原帖由 wwwsq 于 2008-6-25 12:09 发表



同学,有点常识再来参加讨论。

http://bbs.chinaunix.net/viewthread.php?tid=773865
“技嘉科技每月向Google公司供应的服务器主板数量已经达到3万块”

注意,是每个月。


可能他说得是google中国。全球来说google的服务器似乎是超过10万台。

论坛徽章:
0
82 [报告]
发表于 2008-06-25 12:16 |只看该作者
原帖由 cx6445 于 2008-6-25 12:12 发表


这个我还知道,呵呵,我们公司就有自己写的分布式文件系统在用,但是真得问题不少。
我觉得似乎不是几个毕业生就能设计做的。可能我第一反映想到的存储系统,和你想得并不是太一样吧。



眼界放开阔一点,什么叫“存储系统”。

“特定的存储系统”有多难做,取决于这个“特定的存储系统”要实现哪些功能。

不同的存储系统,可以有很大的差别。从内存到U盘到磁带机,从简单的文件存取,到复杂的联合查询。

你们公司的那个存储系统,可能需求比较多,所以难做。这可能是你们系统架构设计的问题。

论坛徽章:
0
83 [报告]
发表于 2008-06-25 12:19 |只看该作者
原帖由 wwwsq 于 2008-6-25 12:16 发表



眼界放开阔一点,什么叫“存储系统”。

“特定的存储系统”有多难做,取决于这个“特定的存储系统”要实现哪些功能。

不同的存储系统,可以有很大的差别。从内存到U盘到磁带机,从简单的文件存取, ...


嗯,如果你说的简单的那也有,比较简单的内存数据库,不好意思,我一想就是比较复杂的,眼界还要象你学习。其实需求也不多,就是读几个亿的1-100KB小文件,就是基本不会是重复的,不能cache的,只要能稳定支持几百兆的流量那也算很成功了。

[ 本帖最后由 cx6445 于 2008-6-25 12:22 编辑 ]

论坛徽章:
0
84 [报告]
发表于 2008-06-25 12:34 |只看该作者
原帖由 wwwsq 于 2008-6-25 12:09 发表



同学,有点常识再来参加讨论。

http://bbs.chinaunix.net/viewthread.php?tid=773865
“技嘉科技每月向Google公司供应的服务器主板数量已经达到3万块”

注意,是每个月。

google公司全球服务器有很多,这是承认的, 但不见得就是都用于搜索网站.
另外,google其实是全世界有很多分公司,不同的分公司有自已的搜索服务器群,但其实从理论上讲,他们是属于不同的服务器群.本质上并不算是一个网站.
我前面所指的数千台,本意是指其一个地区网站(比如中国区)的服务器数量,因为我认为这才算是一个系统.如果因此引起争辩,我承认有误,收回此观点.
另外,是否用数据库,本来就是一个规划问题,不是技术问题,没人"唯数据库论",但也反对"反数据论". 是否采用数据库,其实更多地是一个系统性问题,判断标准如下:
1.功能和性能是否满足? 内存,文件系统,数据库,只要满足要求的,都是一个可选项.
2.性价比和技术难度如何? 一个很简单问题,用数据库一分钟能解决,我们需要组织一组人,花几天甚至几月时间是否值得?同样已经实现设计要求,是否有必要不计代价的追求最佳性能?
3.技术人员要求.哪种方案对技术人员要求低,以后维护修改容易?
4.稳定性.哪种方案稳定性更好,出现机器故障时能否尽可能恢复数据,减少损失?
5.并发性,可扩缩性.当数据规模增长时,哪种方式更容易简单通过扩容硬件即实现处理能力的扩展.
一个特殊问题,也许可以单独实现一个复杂算法以提高性能,但面对大量具有普遍性的信息管理需求,难道每个都需要这样去做吗?比如前面提到的用户信息管理,只是信息系统中最基本最普遍的一个简单问题,如何动则上升到自实现复杂算法的地步,那么面对其它大量的信息管理要求,该如何去面对?
所以,我在前面才说,不要将精力放在,任何人都可以通过简单方式轻易实现的功能上,比如用户管理.而要将精力放在有复杂技术难度的问题上,比如信息提取,语义识别,模式识别,内容搜索等方面.
不知道我到底表达清楚了没有.
还有哪些坚持要自已编算法,去实现简单查询功能的,我也不反对,必竟你有自已的权利,必竟是你对自已的公司和客户负责.

论坛徽章:
0
85 [报告]
发表于 2008-06-25 12:38 |只看该作者
原帖由 cx6445 于 2008-6-25 12:19 发表


嗯,如果你说的简单的那也有,比较简单的内存数据库,不好意思,我一想就是比较复杂的,眼界还要象你学习。其实需求也不多,就是读几个亿的1-100KB小文件,就是基本不会是重复的,不能cache的,只要能稳定 ...



信息不充分:这些文件会不会经常增加删除,文件会不会被修改,查询的频率是怎么也的,最常用的查询方式和条件是什么。

另外,技术咨询是要收费的。

论坛徽章:
0
86 [报告]
发表于 2008-06-25 12:50 |只看该作者
原帖由 zszyj 于 2008-6-25 12:34 发表

google公司全球服务器有很多,这是承认的, 但不见得就是都用于搜索网站.
另外,google其实是全世界有很多分公司,不同的分公司有自已的搜索服务器群,但其实从理论上讲,他们是属于不同的服务器群.本质上 ...



优秀的公司和卓越的公司,就是这么区别出来的。

优秀的公司可以很好的利用现有技术。而卓越的公司不但能很好的利用现有技术,而且能以批判的眼光看待现有的技术。

[ 本帖最后由 wwwsq 于 2008-6-25 12:54 编辑 ]

论坛徽章:
0
87 [报告]
发表于 2008-06-25 13:02 |只看该作者
原帖由 zszyj 于 2008-6-25 12:34 发表

google公司全球服务器有很多,这是承认的, 但不见得就是都用于搜索网站.
另外,google其实是全世界有很多分公司,不同的分公司有自已的搜索服务器群,但其实从理论上讲,他们是属于不同的服务器群.本质上 ...


按你的意思, 在中国注册的用户 在外国就不能登录了?
你上面的 所谓连接池, 行锁, 这些都是最基础的。  我也懒得回了, 你连我说的什么意思都不明白。
至于 服务器的数量, 自己看看。


而且google 的服务器数量会不断的扩张,  目前的gmail 服务下, db 是可以的。 以后b c d e f 服务起来了
绝对就是瓶颈中的瓶颈。 关键就在这里。

正是因为1亿用户 查一下 0.1ms 都不到这种思想,导致了这种做法,没有什么伸缩性可言。
db 靠什么 靠算法。
当goolge发现db 不能完成的时候 google 发明了bigtable.

最后 申明一下 我不是反对db 的人, 改用的地方要用。 但不是这样的用法。

论坛徽章:
0
88 [报告]
发表于 2008-06-25 13:09 |只看该作者
原帖由 wwwsq 于 2008-6-25 11:56 发表



区区不才,需要每天处理几亿条新增消息,一年是几百亿。经常要从所有数据(几千亿条)中做特定的查询。所以根据业务需要写了一个特别的存储系统,速度比标准数据库要快几个数量级,软硬件成本降低了几个数 ...


错了, 我一直在尝试。  我一直在做类im的开发。

我也尝试过db 做完im  系统的中心。 但是结果告诉 我 NO

你的每天几一条  是实时处理吗?  相应的速度要求多少呢? 和gamil的系统有可比性吗? 做特定查询要求多久相应, 数据的变化情况是怎么样的? 每天变化多少?
实际比较起来根本就是2格概念的东西

最后 最好能说一下  行业 有几一条信息? 一个公司?taobao .qq?  

我们呼叫中心 的信息 细分出来 点非常的多,都没有这么多。

论坛徽章:
0
89 [报告]
发表于 2008-06-25 13:14 |只看该作者
原帖由 wwwsq 于 2008-6-25 12:38 发表



信息不充分:这些文件会不会经常增加删除,文件会不会被修改,查询的频率是怎么也的,最常用的查询方式和条件是什么。

另外,技术咨询是要收费的。


可能你误会了,不需要技术咨询,呵呵!理论和实现是两回事!
你可以show一下你这方面的经验,不过如果你具有技术指导的资格,可能年薪几十万你不放在眼里。

[ 本帖最后由 cx6445 于 2008-6-25 13:17 编辑 ]

论坛徽章:
0
90 [报告]
发表于 2008-06-25 13:19 |只看该作者
原帖由 benjiam 于 2008-6-25 13:09 发表


错了, 我一直在尝试。  我一直在做类im的开发。

我也尝试过db 做完im  系统的中心。 但是结果告诉 我 NO

你的每天几一条  是实时处理吗?  相应的速度要求多少呢? 和gamil的系统有可比性吗? 做特定 ...



呼叫中心,只能算是“企业级应用”,用用J2EE那样的技术就足够了。后台么,用Oracle好了,反正企业有钱,我们省事。应用服务器么,用IBM的WebSphere吧,出了问题好和客户、IBM三方扯皮。

你要是用个MySQL,你们的销售都不好意思跟客户打招呼。

[ 本帖最后由 wwwsq 于 2008-6-25 13:21 编辑 ]
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP