免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4609 | 回复: 12
打印 上一主题 下一主题

想google 的网页分析部分是什么类型的集群 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-09-13 13:55 |只看该作者 |倒序浏览
30可用积分
不说发布, 集群的类型 我知道概念。也知道类型。



我指的是 蜘蛛抓回来的大量网页, 我们需要利用某些 解析程序,分析了html 源码,然后得出很多关键字。 然后分类,倒排。

这样的活用一台 pc 也是可以做的,   像google 这样 100w 一起做, 有错的 有冗余, 有自动修复的算什么集群。

因为 我正好也要做一个分析的程序, 分析的对象不一样,原理类似。 程序已经做出来了, 现在多线程运行,而不是集群跑。

我现在希望能一个集群一起跑。 应该怎么做? 改写代码是肯定的, 集群的东西怎么弄? 我的东西如何和整个集群一起工作呢?

论坛徽章:
4
IT运维版块每日发帖之星
日期:2015-09-01 06:20:00IT运维版块每日发帖之星
日期:2015-10-09 06:20:00操作系统版块每日发帖之星
日期:2015-10-20 06:20:00IT运维版块每日发帖之星
日期:2015-11-03 06:20:00
2 [报告]
发表于 2008-09-13 15:01 |只看该作者
去斯坦福大学学习去吧,google就是在斯坦福大学创立的

论坛徽章:
0
3 [报告]
发表于 2008-09-21 13:51 |只看该作者
你不是英雄,不是一呼百应的英雄,鲁迅都要退避三尺,你又何必强出头呢?做好自己,在你不是英雄前,在你还无法普度终生前。

论坛徽章:
0
4 [报告]
发表于 2008-09-21 21:41 |只看该作者


呵呵,路过!!

论坛徽章:
0
5 [报告]
发表于 2008-09-25 16:38 |只看该作者
GOOGLE是自己开发的,你要是想用 那是痴人说梦 但你可以自己开发

硬件可以告诉你不是我们一般看的LVS 都是刀片机也可能有巨型机

[ 本帖最后由 13251947 于 2008-9-25 16:39 编辑 ]

论坛徽章:
0
6 [报告]
发表于 2008-09-25 20:24 |只看该作者
原帖由 13251947 于 2008-9-25 16:38 发表
GOOGLE是自己开发的,你要是想用 那是痴人说梦 但你可以自己开发

硬件可以告诉你不是我们一般看的LVS 都是刀片机也可能有巨型机



别再这里充老大了.google 本身就是些pc 完成的。

这里的水平很高吗? 只会使用以下软件 搭建一下。真的需要设计东西? 就没人出来了。

我已经查到
我说的google 集群 是Map Reduce,应该算是高负载计算的集群。

设计一个具有map reduce功能 的程序不是非常困难 和复杂。
过程也就是分成2部而已。

但是需要设计成有伸缩可扩展能力的框架 就非常困难了。

不懂的人 去看 http://www.mengyan.org/blog/archives/2006/11/15/138.html

论坛徽章:
0
7 [报告]
发表于 2008-09-26 09:34 |只看该作者
原帖由 benjiam 于 2008-9-25 20:24 发表



别再这里充老大了.google 本身就是些pc 完成的。

这里的水平很高吗? 只会使用以下软件 搭建一下。真的需要设计东西? 就没人出来了。

我已经查到
我说的google 集群 是Map Reduce,应该算是高负载 ...

你在这里装什么蒜,google要是开源的你和google要文档好了,在这里jjyy什么,几篇软文你能搞tm什么飞机出来

论坛徽章:
0
8 [报告]
发表于 2008-09-26 09:37 |只看该作者
最牛b都互联网巨型机都在美国,美国的网络也不是一般的快,这些都不用个google自己掏钱

你懂个jj啊,国内都有一个站上千台服务器,你以为用hub连啊? 像你这样的俗人都接触不上。

论坛徽章:
0
9 [报告]
发表于 2008-09-26 23:32 |只看该作者
原帖由 13251947 于 2008-9-26 09:34 发表

你在这里装什么蒜,google要是开源的你和google要文档好了,在这里jjyy什么,几篇软文你能搞tm什么飞机出来


你们只能安装一下,知道又如何? 我拿到文档,我至少能做出原形

论坛徽章:
0
10 [报告]
发表于 2008-09-29 09:50 |只看该作者

回复 #1 benjiam 的帖子

GOOGLE都在开始玩云计算,现在还是好好了解一下具体的科学技术群集,这个对于编译一些Linux上的源码是很有意义的
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP