免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: yftty
打印 上一主题 下一主题

浩存 - 面向数据库,虚拟机等海量数据可同时提供NFS/iSCSI访问的集群存储系统 [复制链接]

论坛徽章:
0
191 [报告]
发表于 2006-02-08 23:44 |只看该作者
原帖由 veiven26 于 2006-2-8 10:53 发表
先支持一下,只是不知道要参与这个项目的话需要先学会哪些知识?


请看看 MogileFS (http://www.danga.com/mogilefs/) and FUSE (http://fuse.sourceforge.net/) 吧, socket, RPC, multi-thread programing, etc.

论坛徽章:
0
192 [报告]
发表于 2006-02-14 23:13 |只看该作者
看到了上面的网站

[ 本帖最后由 veiven26 于 2006-2-15 16:51 编辑 ]

论坛徽章:
0
193 [报告]
发表于 2006-04-03 11:05 |只看该作者

回复 1楼 yftty 的帖子

[2006/03/21]
我再想这样的一种思路,假如给我100台普通的服务器,配置为2CPU、2G内存、2块143G
硬盘,这些服务器作为普通的使用,可能100台就是100台去用。假如从另外一个角度,
从他能提供的资源的角度去看:
1。存储资源:200块143G硬盘,容量为 28T
2。内存资源:2T的资源
3。CPU资源:200颗CPU

从我们目前的服务器使用来看,很多的服务器资源使用都是没有充分使用的,有的CPU
大量空闲,有的内存大量空闲,有的存储资源大量空闲,为了让投资达到最大化的利用,
首先我们要实现分布式的架构设计,就是说,通过我们自己的一些开发工作,把100台
服务器的硬盘当成一个去用,把200G的内存当成一个整体去用,把200颗CPU当成一个
整体去用,这样,我们可以把这100台服务器看作一组专用的服务器,用他来提供3类
服务,使各类资源都能充分发挥作用,同时也降低了整体投资,提高了资源的利用率
(复用率)

我猜想google是不是就是这么干得,要不然他们用大量的服务器实现了存储,那么
服务器上的CPU和内存是全部或者部分空闲的嘛?现在amazon又能提供这样的海量
存储服务了,那么这些存储会不会是他们对空闲的服务器资源的发掘利用呢?

[2006/03/30]
今天又看了几个Google的技术论文,对上次关于Google把大量服务器即用于存储
也用于计算的可能性又有了进一步的肯定。他们的确是越来越多使用了分布式
计算了,尤其是BigTable的设计对我的启发很大,基于他们的那些技术,可以
实现超级强大的运算量,超级大的存储系统,而看不到任何的性能瓶颈,唯一
存在瓶颈的,只是电力问题了。

目前从我们看到的 Google 披露的技术资料中,可以看到下面的一些技术实现:

BigTable:  基于内存的分布式数据库,它基于GoogleFS和下面的 2 个技术

Cluster Scheduling Master:
           实现集群节点的监控,错误处理,在 BigTable 的介绍中出现过这个系统。

Lock service:
           在 BigTable 的介绍中出现的系统,实现 BigTable 中 metadata 的管理

Sawzall:   用于数据分布式处理的解释型语言,它基于下面的几种技术:
           http://labs.google.com/papers/sawzall.html

Protocol Buffers:
           类似XML,比其更加复杂一些,可以实现二机制数据格式的描述和组织。

WorkQueue: 分布式的任务调度队列,它调度计算任务、分配资源、报告状态和收集
           状态,它还能把计算就近分配再存储数据的节点上,避免了数据传输。

MapReduce: 它是基于WorkQueue的应用程序调用的一个库,它实现3个功能:
           实现并行数据处理的模型,
           实现应用程序和底层分布式处理机制的隔离,比如数据分布、调度、容错等,
           尽可能将计算指令分配在那些保存GFS数据的节点上,以减少网络的负载。
           http://labs.google.com/papers/mapreduce.html

GoogleFS:  Google 的分布式文件系统,数据分布在上千台普通的PC服务器上,每台
           服务器上的数据以64M的数据块为存储单位,每份数据至少在3个机器上
           存在副本,并且大量文本型的数据压缩保存。
           http://labs.google.com/papers/gfs.html
           http://labs.google.com/papers/googlecluster.html

基于以上这些技术,Google 自然是可以把每台服务器的资源充分挖掘出来,简单的看,
假设还是100台服务器,他们可以把全部硬盘当成一个去用(GoogleFS),把200G的内存
当成一个整体去用(BigTable),把200颗CPU当成一个整体去用(MapReduce),
由 WorkQueue 调度任务,Sawzall 编写分布式的计算程序来调用以上资源。
这么看上去,整个集群俨然已经是个超级计算机了。

所以他们可以采购大量廉价PC,即用于存储也用于计算。并且可以使用成本很低的
PC,具体的价格可以自己去算,总之我们可以做到用这样的廉价PC搭建出每T成本
和硬件的NAS存储一样的存储系统。不同的是,这种存储系统同时还有强大的计算
能力,和大量的内存可以使用,但是却更加消耗电力和IDC资源。
我担心的就是我们可以用技术把存储、运算的成本降的很低,但是IDC的使用成本却会
随着机器增加而成倍增加。

Google为什么逐渐发展成这样一个架构呢?是一开始就这么设计呢?还是逐渐发展的?
他们的这种模式适合我们嘛?
我也不知道答案,如果搞清除下面几个问题也许能得到答案:
1。因为中国IDC资源非常稀奇,所以租用IDC的成本未必比采购服务器便宜,而且
   大量的服务器要消耗大量的电
2。我们有那么大量的计算需求吗?可能真的就是在搜索服务中有大量的计算处理,
   其他的应用处理量并不是很大
3。如果我们用大量的廉价PC构造一个服务集群,存储也许可以充分利用,CPU和
   内存能够充分利用吗?也许内存可以利用,但是CPU未必都能利用
4。开发相关的软件和应用需要多大代价?
5。如果我用大量的廉价PC实现分布式存储,同时作为Web前端使用可行吗?
   我觉得这个也许可行。
6。单纯为了存储的需求去设计这样的集群似乎并不划算,但是如果加上它带来的计算
   能力和内存资源,似乎值得。
7。还有其他。。。。。

Google 那种模式真的成本低吗?假如他们能充分利用所有的资源,要那么多CPU他们
有那么大的运算量吗?

原来看Google的GFS的文档和搜索集群文档时,还简单认为他们的集群主要靠大量
服务器负载均衡实现,但是现在看来他们更多的是在使用分布式处理和并行处理。

我想Google的业务类型决定了他们的分布式运算的模型并不复杂,因为大多都是
文本的处理。


参考资料:
http://homepages.inf.ed.ac.uk/mic/Skeletons/
http://www.cnblogs.com/tianchunf ... 5/03/17/120722.html

http://wikipedia.cnblog.org/wiki/Google
http://wikipedia.cnblog.org/wiki/Google_File_System
http://wikipedia.cnblog.org/wiki/MapReduce
http://labs.google.com/papers/mapreduce.html
http://labs.google.com/papers/sawzall.html

论坛徽章:
0
194 [报告]
发表于 2006-04-03 15:37 |只看该作者
又一个只有人动口吹牛,没人动手实现的计划

论坛徽章:
0
195 [报告]
发表于 2006-04-04 09:58 |只看该作者
据了解,新浪已经实现了.

论坛徽章:
0
196 [报告]
发表于 2006-04-07 15:05 |只看该作者
看完了所有帖子.真是好累.发现已经看了30分钟.这里的的浏览方式是在难受.
题外话到此结束.
  看了大家的发言,感触最深的不是分布式应用技术多牛x.而是另外一种思考模式.(about gfs).

楼主说"不是技术厉害了再去做东西,而是再做的过程中提高自己."  信心百倍.

论坛徽章:
0
197 [报告]
发表于 2006-05-09 13:06 |只看该作者
www.googlefs.com不能访问。

论坛徽章:
0
198 [报告]
发表于 2006-05-10 17:50 |只看该作者
好贴,顶

论坛徽章:
0
199 [报告]
发表于 2006-05-11 12:50 |只看该作者
大家一起努力吧。

论坛徽章:
0
200 [报告]
发表于 2006-05-12 13:54 |只看该作者
原帖由 shellcode 于 2006-4-3 11:05 发表
[2006/03/21]
我再想这样的一种思路,假如给我100台普通的服务器,配置为2CPU、2G内存、2块143G
硬盘,这些服务器作为普通的使用,可能100台就是100台去用。假如从另外一个角度,
从他能提供的资源的角度去看: ...


http://gceclub.sun.com.cn/event/road_show.html

演讲者及演讲内容

Gartner

George Weiss, Vice President and Distinguished Analyst from featured analyst firm Gartner

    By 2010, the server and operating system architecture that has been the staple and the center of IT infrastructure for more than 30 years will evolve to new architectures and environments that span tens, hundreds or even thousands of servers. Vendors and ISVs that understand and can translate this vision into practical reality will gain a competitive advantage. This presentation by Gartner's George Weiss will cover the role of the OS environment, important new technologies, together with usage and deployment strategies. There's great potential and much to gain, but the overall complexity will increase. This will demand strong collaboration among technology suppliers, ISVs, integrators and IT management to execute and capitalize on these innovations.
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP