Chinaunix

标题: 有奖讨论:寻找节省数据存储成本的有效措施!存储虚拟化、分布式文件系统、集群NAS [打印本页]

作者: 草上飞2008    时间: 2009-07-06 09:35
标题: 有奖讨论:寻找节省数据存储成本的有效措施!存储虚拟化、分布式文件系统、集群NAS
前段时间讨论了数据备份省钱之道,现在,在2009系统架构师大会召开之前,我们再次展开“数据猛增,如何有效降低数据存储管理成本?”的主题讨论,欢迎大家积极参与。

    话题背景:在当前的经济危机下,企业在减少各种成本然而,有一项却是不能节省,反而需要增加的项目:这就是数据存储管理!为了降低数据存储管理成本,现在有多种数据存储解决方案可供选择:

   1、软硬结合的“文件虚拟化”解决方案(存储虚拟化)
   当前,F5、博科等厂商推出了“文件虚拟化”解决方案,例如,F5 ARX文件虚拟化技术能够隐藏所有你的物理设备,通过子物理设备上面构建一个新的层,本质上也就是为那些NAS设备提供一个对外的逻辑视图,通过这种方式来实施各种好处。

   2、纯软件数据存储管理方案:
    另外,我们也可以选择、尝试各种软件的分布式文件系统解决方案(集群文件系统、集群存储系统),来管理这些数据。例如lustre、hadoop、PNFS、Moosefs等等。
    3、其他的虚拟化解决方案,例如用Vmware等,

   有奖讨论时间:2009.7.6-7.30
   主题讨论范围(备选话题):
   1、面对数据猛增,如何有效区别重点数据?如何了解 数据占用着什么资源?如何监控存储设备状态?
   2、在你企业的存储体系中,不同品牌的存储设备是否兼容?如何打破品牌壁垒?

   3、你的二手低档存储介质是否已经空置?能否有效将之利用起来?
   4、你是否能做到在不中断业务的情况下,扩容或更新存储设备?如何做到?

   5、包括SAN、NAS等多种实际存储环境中,你的方案部署、数据备份的时间成本如何?是否有节省时间的措施?
   6、存储虚拟化(文件虚拟化)技术中,技术实现分为:内、带外两种实现方式,到底哪种方案更好?

 7、F5、博科等多种文件虚拟化(存储虚拟化)方案,你觉得哪个好?
   8、lustre、hadoop、PNFS、Moosefs等集群文件存储方案,你觉得哪个好?
   9、其他的成本节省措施,或者你所关注的存储问题,欢迎提出来!

   针对以上问题,欢迎大家参与讨论,其中包括:
   A:针对以上问题(可随意选取),发表你的观点、看法,或者提问疑问。
   B:大家相互交流,共同进步。

   为了丰富讨论,我们提供了一种专业的数据分析管理工具--"X-ray Data Manager",通过这个软件,我们可以区别重点数据、了解 数据占用着什么资源,以及监控存储设备状态等。
    大家如果想到下载这个软件,可访问:“想要透视你的存储环境?那就注册下载Data Manager,看究竟!”http://f5event.beijingwizard.com/dm/

    主题讨论激励:
    参与本次讨论者,我们将选出精彩发贴讨论者,以获以下奖励:

    1、所有热心参与我们有奖讨论的网友将获得CU可用积分200
    2、在精彩回贴中,选取10名获奖者,获取 CU新版T桖(阿迪达斯),数量:10件。
    3、如果想参加 2009系统架构师大会,可向 草上飞2008 申请 最优惠大会门票。(7.20号以后,此条款将起作用)

    4、志愿者选取,本次活动中,选取产生6名2009系统架构师大会志愿者!(活动结束)

     大家如果有什么问题,可以致电唐川(草上飞2008),13810185479,邮箱:tang_chuan@tom.com

[ 本帖最后由 草上飞2008 于 2009-7-16 14:32 编辑 ]
作者: 草上飞2008    时间: 2009-07-06 09:36
寻找节省数据存储成本的有效措施活动已经结束,下面是本次活动的获奖者信息


  
用户名

  
  
奖品

  
  
aaaaa5aa

  
  
CU论坛积分200分

  
  
bbjmmj

  
  
CU论坛积分200分

  
  
bbskuang

  
  
CU论坛积分200分

  
  
blackjack550

  
  
CU论坛积分200分

  
  
brucewoo

  
  
CU论坛积分200分

  
  
deadwind

  
  
CU论坛积分200分

  
  
frangce

  
  
CU论坛积分200分

  
  
frideing

  
  
CU论坛积分200分

  
  
kns1024wh

  
  
CU论坛积分200分

  
  
lasama

  
  
CU论坛积分200分

  
  
ldw21cn

  
  
CU论坛积分200分

  
  
leetaedong

  
  
CU论坛积分200分

  
  
Lingsyser

  
  
CU论坛积分200分

  
  
markinger

  
  
CU论坛积分200分

  
  
ruochen

  
  
CU论坛积分200分

  
  
sery

  
  
CU论坛积分200分

  
  
shawnlee

  
  
CU论坛积分200分

  
  
sparkingcn

  
  
CU论坛积分200分

  
  
terrous

  
  
CU论坛积分200分

  
  
wadezq

  
  
CU论坛积分200分

  
  
wxfjx

  
  
CU论坛积分200分

  
  
冬瓜头

  
  
CU论坛积分200分

  
  
剑次狼

  
  
CU论坛积分200分

  

                           

  
  
用户名
  
  
奖品
  
  
aaaaa5aa
  
  
CU 新版T恤一件
  
  
blackjack550
  
  
CU 新版T恤一件
  
  
ldw21cn
  
  
CU 新版T恤一件
  
  
Lingsyser
  
  
CU 新版T恤一件
  
  
sparkingcn
  
  
CU 新版T恤一件
  


积分会在本月底统一为大家添加,请CU新版T恤的获奖者将个人信息通过站内短信的形式发送给"vcanb",发送信息:
                 姓名:
                 电话:
                 地址:
                衣服码号:
衣服码号请参照:http://bbs3.chinaunix.net/thread-1491367-1-1.html

作者: yangm63    时间: 2009-07-06 10:00
X-ray,怎么这么像飞康的东西
作者: terrous    时间: 2009-07-06 10:36
原帖由 yangm63 于 2009-7-6 10:00 发表
X-ray,怎么这么像飞康的东西


好像就是,呵呵

只要您的一通電話或是一封電子郵件,飛康的技術支援工程師就會竭誠為您提供專業、迅捷且貼心的服務。從產品部署到升級,飛康的技術支援工程師隨時待命,協助貴公司的解決方案獲得成功。

為了盡可能向用戶提供最佳的技術支援,我們的技術支援工程師與我們的研發、儲存架構、品質保證工程師緊密合作,透過綜合性技術實驗室,他們可以在各種軟硬體環境下,提供與客戶環境最貼近的技術支援。

IPStor 平台內建的診斷工具 – X-Ray,可將關鍵系統資訊的收集變得異常簡單。問題發生時會發送X-Ray檔案(包含解決問題所需的全部技術資訊的檔)給我們的技術人員,在您需要協助時加快解決問題的進度。
作者: ljjcover    时间: 2009-07-06 16:33
有用过的么?
自己先下载试试吧
作者: soding    时间: 2009-07-06 16:35
希望能当上自愿者,为大家服务,也可以免费学习!报名~~~
作者: wadezq    时间: 2009-07-07 12:16
标题: 希望成为自愿者
如果对写的问题要求不是很高的话,可以用廉价的sata盘。

把以往的数据归档,放到其他的服务器上。毕竟老的数据访问的几率还是比较少的。


开源的存储也可以用freenas 自己测试了一下,觉得性能还不错。
作者: ruochen    时间: 2009-07-08 12:40
存储虚拟化、文件虚拟化----说实在的,对我还是一个很新的概念

现在看到外边一些中小企业已经开始用开源的一些软件来搭建自己的存储了
像FreeNAS、openfiler

据说阿里巴巴西面的一些工程团队也在自己搭建存储,他们的DBA有一些爆料,喜欢的可以搜索下
作者: shuangzijingguo    时间: 2009-07-08 15:32
积极参与活动
作者: sery    时间: 2009-07-08 16:07
我已经用moosefs实施了几个访问量大 数据量大的项目

moosefs的站点是 http://www.moosefs.org
作者: frideing    时间: 2009-07-08 16:09
原帖由 草上飞2008 于 2009-7-6 09:35 发表
前段时间讨论了数据备份省钱之道,现在,在2009系统架构师大会召开之前,我们再次展开“数据猛增,如何有效降低数据存储管理成本?”的主题讨论,欢迎大家积极参与。

    话题背景:在当前的经济危机下,企业 ...



    我也来说两句哈,
     文件虚拟化?  是不是  全局命名空间 这玩意啊?


    实施全局命名空间(GNS)是高效管理分布式文件存储的关键:它对于文件存储的作用就好像是DNS对于网络的作用一样。全局命名空间使客户端在无须知道分散文件位置的情况下,直观地访问这些文件(就像我们访问Web站点而并不知道IP地址一样)。它还让管理员能够在一个控制台上管理分散在不同位置处的异构设备上的数据。

    文件虚拟化方案能够轻松建立和管理任何大小的全局命名空间。在部署文件虚拟化方案以后,用户访问文件的方式发生巨大变化,从原来访问物理文件存储设备转换成为一个统一的逻辑视图。用户可以拥有自己的文件夹,也可以访问权限可达的通用文件夹。

    全局命名空间是位于客户(用户和应用)和文件系统之间一个逻辑层,提供了一种独立于文件物理位置的文件察看和访问方法。其结果是,管理员能够使用一个命名空间逻辑的排列和显示给用户,不考虑数据的实际位置。

    有了逻辑的全局命名空间,管理员就能够以取得最佳的性能和容量使用的方式存放文件,用户则能够通过命名空间访问文件。当增加或者整合存储设备以及文件被移动或者改名时,客户端将被自动指引到新的文件存放位置,并不知道文件已经被移动。在重新配置存储设备时,不需要对桌面电脑进行重新配置,重新分配盘符,或者修改登录脚本。

    目前在市场中也存在一些具有监测功能的工具,可以提供大量有关存储环境状态的信息,但是,这些工具都属于被动的类型,无法进行主动的数据管理工作,而文件虚拟化则可以。总体来说,文件虚拟化可以大幅度简化存储管理、提高灵活性并降低成本,它主要通过认证和分析来优化网络存储,从而解决在容量、性能以及分级存储等方面问题。
作者: bbskuang    时间: 2009-07-08 16:10
第一,尽量不买贵的阵列
第二,尽量用sun或其他公司的openstorage
第三,尽量用红帽GFS或BSD的MOOSEFS
第四,尽量听草上飞唐哥的推荐。

报告完毕
作者: terrous    时间: 2009-07-08 16:19
标题: 回复 #1 草上飞2008 的帖子
讲省钱啊,能把以前的旧存储设备都用起来,就能省不少,


转转这个,呵呵

盘点2009年存储存储备份省钱省时十大方法


在当前经济不景气的形势下,企业不得不缩减各方面的的预算,存储也不例外。然而,全球数据量的爆炸式增长并没有因此而减缓,这使得存储环境变得越来越复杂,大大增加了存储备份的管理难度。本文盘点了2009年存储备份管理员省钱省时的十大方法。

磁带存储
在存储领域,最廉价的存储介质当属磁带。Sun StorageTek SL8500磁带库的磁带数量高达8500。一个LTO-4磁带盒可以容纳800GB的数据,如果压缩率为2:1,则可以容纳1.6TB的数据。8500乘以1.6TB就是13.6PB数据。一个LTO-4磁带盒成本大约在50美元左右,假设磁带库的成本在50万美元,其中42.5万美元为磁带盒的成本,7.5万美元为磁带驱动器(10个)的成本,那么储存13PB数据只需要100万美元。没有任何其他存储介质能比磁带更便宜了,有的初始成本甚至能达到200万美元。另外,由于磁带存储平时是空闲的,不需要任何电力或能源消耗。因此,磁盘存储所需的成本往往会比磁带存储高好几百倍。磁带盒是可以移动的,可以从一个站点发送到另一站点以保护数据和灾难恢复。若是用磁盘替换磁带,你就不得不在其他地点也拥有同样容量的磁盘空间,然后将数据复制到这个昂贵的异地磁盘空间内。

MAID
有些数据很少被访问,它们是否应该存储于持续转动、耗电和发热的存储介质中呢?MAID技术对这个哲理性问题的回答是“不”。MAID技术可以让不需要使用的磁盘停止转动,这不仅省钱,而且大大地提高了设备的可靠性。因为设备清闲下来后,出现故障的几率也会小一些。

重复数据删除
让我们为删除重复数据欢呼吧!管理的数据越少,备份也就越快,恢复也越快。重复数据删除降低了存储容量需求,不仅能减少资本投入,还能降低运营成本。

数据压缩
重复数据删除可以让10个相同的2MB文件变为一个2MB文件。数据压缩则可以让这个2MB的文件变为一个200KB的文件。那么,20MB将变为200KB了。数据压缩可以让文件变得更小,通常能将文件大小降低几个数量级。如果你有10个相同的压缩文件,那么重复数据删除可以移除重复的数据,只留下一个物理文件和指向该文件的指针。没有数据压缩,重复数据删除留给你的是一个未压缩的文件,尽管节省了不少容量,但效果还是不如结合使用重复数据删除与数据压缩。

自动精简配置
为一个10GB的数据库配置500GB的存储空间势必会减少了其他应用的可用空间,但是数据库大小又是不断增长的,不留余地也不行。因此,你不得不购买高于实际需要的存储容量。自动精简配置可以解决这个难题。它允许只在实际需要时才释放存储空间,而不用过度分配存储空间。这不仅降低了容量需求,而且降低了能耗和存储设备的占地面积。

信息周期管理(ILM)
如果执行合理,ILM会有多个存储层,你可以用最合适的价格获得最合适的容量和性能,不仅效果更好,而且从初次购买到每一级数据保护管理都会更有效率。

固态硬盘(SSD)
固态硬盘(SSD)的容量日益增长,价格逐渐走低。与物理磁盘相比,固态硬盘不仅性能优越,而且降低能耗(没有运转的磁盘)。要达到8个SSD的性能速度,可能需要200个最快的FC驱动。在未来的两年内,SSD的价格还会大幅降低,SSD将会成为更高容量环境的解决方案。

SATA磁盘
与FC驱动相比,SATA磁盘的确容量更高、速度更慢、可靠性更低。但是,SATA的物理体积更小、容量更高,适合于优先级较低的应用、磁盘到磁盘备份或归档数据,可以帮助企业节省资金、占地面积和机架空间。

存储资源管理(SRM)
SRM软件可以让存储管理员高效地管理分散于各个物理地点的数据,而不再需要奔波于各地去分别进行管理和更改。如果一个文件存在于主存储、次级存储、磁带和灾难恢复地点,而现在你需要更改该文件的策略,通过SRM工具你只需在一个屏幕中更改设置然后应用到该文件即可,不用管这个文件到底位于什么物理位置。
存储整合
存储整合技术不仅减少了硬件部件数量、降低了维护成本和故障点数量,而且拥有很多称得上是“绿色”技术的功能。存储桥(storage bridge)让所有不同类型的存储都位于控制器之后,而不是分别拥有单独的网络,这样的技术当然是绿色的。存储控制器可以虚拟化各厂商的存储阵列,这不仅降低了初始成本,也不需专门培训员工了解每个系统的细节。
作者: xinyv    时间: 2009-07-08 16:20
很不错的话题,先占个位置,听诸位高论。
作者: axlrose    时间: 2009-07-08 16:21

作者: 草上飞2008    时间: 2009-07-08 16:24
原帖由 sery 于 2009-7-8 16:07 发表
我已经用moosefs实施了几个访问量大 数据量大的项目

moosefs的站点是 http://www.moosefs.org



sery说的moosefs,是不是这样的结构?

1、        元数据服务器。在整个体系中负责管理管理文件系统,目前MFS只支持一个元数据服务器master,这是一个单点故障,需要一个性能稳定的服务器来充当。希望今后MFS能支持多个master服务器,进一步提高系统的可靠性。
2、        数据存储服务器chunkserver。真正存储用户数据的服务器。存储文件时,首先把文件分成块,然后这些块在数据服务器chunkserver之间复制(复制份数可以手工指定,建议设置副本数为3)。数据服务器可以是多个,并且数量越多,可使用的“磁盘空间”越大,可靠性也越高。
3、        客户端。使用MFS文件系统来存储和访问的主机称为MFS的客户端,成功挂接MFS文件系统以后,就可以像以前使用NFS一样共享这个虚拟性的存储了。
作者: daui9999    时间: 2009-07-08 16:27
纯粹参与

支持一下
作者: Lingsyser    时间: 2009-07-08 16:33
原帖由 草上飞2008 于 2009-7-6 09:35 发表
前段时间讨论了数据备份省钱之道,现在,在2009系统架构师大会召开之前,我们再次展开“数据猛增,如何有效降低数据存储管理成本?”的主题讨论,欢迎大家积极参与。

    话题背景:在当前的经济危机下,企业 ...



问一下,文件虚拟化,跟 集群NAS虚拟化 有关系没?
作者: 剑次狼    时间: 2009-07-08 16:41
1、面对数据猛增,如何有效区别重点数据?如何了解 数据占用着什么资源?如何监控存储设备状态?
貌似对于现在数据猛增情况下,有足够经济的企业采用统一存储类,而一般中小公司会想各种替代方法来实现。
作者: aaaaa5aa    时间: 2009-07-08 17:32
1、面对数据猛增,如何有效区别重点数据?如何了解 数据占用着什么资源?如何监控存储设备状态?

这个问题我想最重要的就是要用到数据管理与数据挖掘技术(Data Mining),交互式地实现数据管理
与报表生成,从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式。像著名的统计分析,
数据挖掘产品SPSS。将这些最核心的数据是存放在最可靠的存储资源上并且做好相关备份,就当前的云
计算来说,并不是一个很好解决的问题,因为企业不可能把数据放在公共的存储空间,那样很不安全。
目前市面上还没有很好的监控存储设备状态软件,只能是各自做好适用于自身的监控软件。

2、你是否能做到在不中断业务的情况下,扩容或更新存储设备?如何做到?

从理论上来说,要做到在不中断业务的情况下,扩容或更新存储设备是容易的,而且很多厂家提供了全方
位的软件助你解决这些问题,比如:通过StorageFoundation,企业内部用户可以自由使用分散在不同
物理设备上的所有存储资源,而无需关心这些存储资源所处的物理位置、容量大小、设备类型和制造商如
何,这些都将从单一的逻辑视图中实现调配。此外,StorageFoundation能够在不离线的情况下,将数
据动态且透明地从一台设备迁移到另外一台设备。EMC存储设备也提出了相关解决方案。
但实际中很可会遇到有关问题,个人认为还是停应用比较稳妥,这样能保证数据的安全。

3、存储虚拟化(文件虚拟化)技术中,技术实现分为:内、带外两种实现方式,到底哪种方案更好?

根据控制和数据路径(拓扑结构)的不同,存储虚拟化分为对称(或叫带内in-band)与不对称(或叫带外
out-of-band)两种方式。这两种方式的主要区别在于存储网络中数据I/O与控制信息是否使用同一通道。
个人认为,带内虚拟化容易造成网络拥塞,降低了性能,同时容易产生瓶颈和单点实效,帮其在应用中
往往是冗余配置。还是带外的比较好一点。


[ 本帖最后由 aaaaa5aa 于 2009-7-11 13:50 编辑 ]
作者: 山野村夫    时间: 2009-07-08 17:50
占个位置
作者: zsmdev    时间: 2009-07-08 18:00
公司越来越大,这些问题就越来越突出,思考不能停啊
好的管理规划+先进技术
作者: kns1024wh    时间: 2009-07-08 18:15
标题: 回复 #1 草上飞2008 的帖子
来晚了

说到当前的文件虚拟化确实是一个很有价值的话题;
企业使用现在的硬件将磁盘的剩余空间有效的利用起来组成一个较大的文件存储空间是比较合适的一个有意义的事情;
FreeNAS、openfiler 选择相对还是将已有的不用的磁盘排列组合成为一个较大的存储空间,并将空间网络化存放,而对于各台服务器上的空余的存放空间如何有效的通过lustre、hadoop、PNFS、Moosefs等集群文件存储方式整合使用,对于企业是一个比较有意义的事情,同时也是可以节约更多的成本的
作者: forward51    时间: 2009-07-08 19:08
前来学习,冒昧问一下一楼第三条是不是打错了
vamware
作者: 山野村夫    时间: 2009-07-08 20:04
说实在的虚拟化存储的方案,目前并不是很了解
作者: deadwind    时间: 2009-07-08 20:51
1、面对数据猛增,如何有效区别重点数据?如何了解 数据占用着什么资源?如何监控存储设备状态?

@ 如果有效区别重点数据取决于应用系统的重要性,首先应该根据应用系统的重要性(即数据重要性)程度来对存储资源进行分级,辅以性能、城本等各种因素;保障最核心的数据是存放在最可靠的存储资源上比如高端存储设备,次重要数据存放在中端存储上,比较旧的或相对重要性较低的数据(比如视频监控数据)存放在较低端或较旧的设备上(比如淘汰了的设备或SATA大容量廉价存储设备);目前由于各家存储厂商的产品互不兼容,并没有很好的集中存储设备监控管理工具,目前还是主要依赖于各家存储自带的管理工具,或通过网络监控软件利用snmp等协议做一些简单监控

   2、在你企业的存储体系中,不同品牌的存储设备是否兼容?如何打破品牌壁垒?

@ 一个大的企业的存储体系架构,可能会跨高中低端都有,由于各种因素,很难保证存储都使用同一品牌,而目前由于厂商利益壁垒因素,存储的兼容性还很差,目前是几乎不兼容的,但建议高中低某个档次的存储选型中,尽量趋向一个品牌,做到横向兼容,这样对于购买或后续管理、维保成本,都能有不少好处;置于打破品牌壁垒嘛,尽管IBM的SVC和HP oem LSI的SVSP均能做到针对不同品牌存储的存储虚拟化,但就目前行业案例来讲,还显得不够成熟,况且本身成本亦不低,但是如果企业上了VMware企业级虚拟化系统,通过Storage VMotion这种技术,某种程度上也算是很好的整合了各种品牌存储的利用,当然并不能去统一管理

   3、你的二手低档存储介质是否已经空置?能否有效将之利用起来?

@ 已经过了维保期且没有必要进行续保(成本一般不值)的中低档设备,可以尽量用来在企业里为各种应用搭建测试环境,或者利用高端存储的外部扩展能力连接在一起做存储分层,拿来做一些归档的应用,充分做到利旧

   4、你是否能做到在不中断业务的情况下,扩容或更新存储设备?如何做到?

@ 能做到,但取决于你使用的存储产品,一般高端存储在这方面做得很好,都能做到在线扩容;很多中端存储号称也可以,但实际中发现有很多问题,一般还是要停应用比较稳妥,同时更新存储设备如果只是firmware更新还较容易,如果更换全新存储设备难度较大,比如如果要将某主机一个lun迁移到新存储设备上,如果没有SVC这种虚拟化设备,也可以用一些主机LVM等功能实现

   5、包括SAN、NAS等多种实际存储环境中,你的方案部署、数据备份的时间成本如何?是否有节省时间的措施?

@ 如果在大型企业环境里,可能对一个大型应用系统的备份会严重影响到主机的负载而拖慢最终用户使用,而且备份效率很低,这时可以通过存储级别的高级功能来实现备份优化,比如对该应用所使用的存储LUN做snapshot或mirror LUN,然后在某个备份时间点来剥离这个mirror,并将mirro LUN的数据挂载到代理备份主机上,让备份系统来备份代理主机上的这个mirror LUN,这样既能提高备份效率,又完全不影响应用,置于存储级别的snapshot或mirror LUN技术,通常对系统负载的损耗是很低的;另外,在一个大规模备份系统的环境中,要针对备份做时间优化,首先必须统计出所有需要数据库冷备的系统的DB停起时间,统计好各种需要备份的系统的数据量、增长率、平均备份时间等信息,然后根据这些信息订制出适合自身应用业务特点的备份策略,这样才能保证备份中不会出现上下班马路塞车这种高峰期出现,才能有效的节省时间;还有,对于NAS设备,应该尽量使用NDMP方式来进行备份,效率高于普通文件级备份

   6、存储虚拟化(文件虚拟化)技术中,技术实现分为:内、带外两种实现方式,到底哪种方案更好?

@ 带内:简单易用,成本相对低,控制流和数据流未分离
  带外:架构复杂一些,成本高一些,控制流和数据流分离

 7、F5、博科等多种文件虚拟化(存储虚拟化)方案,你觉得哪个好?

@ 概念上都差不多,只有测试对比了性能、功能、成本等综合因素才能评价哪个解决方案更好

   8、lustre、hadoop、PNFS、Moosefs等集群文件存储方案,你觉得哪个好?

@ 相对看好pNFS

   9、其他的成本节省措施,或者你所关注的存储问题,欢迎提出来!

@ 有VMware企业级应用的企业,随着新版本vSphere4的发布,有些功能可能会为存储带来成本降低,那就是自动精简技术,其实vmware workstation是具有这样功能的,但这种跑在OS上层的虚拟化本来性能就低,这种功能的磁盘性能满足不了企业级的需求,VMware Infrastructure 3上就还没集成这样的功能,造成的结果就是,创建一个虚拟机,由于担心后续扩展卷或文件系统有难度等因素,通常都是建立一个很大的硬盘,而VI3上面建立的硬盘设定多大,实质就是那么大的VMDK文件,即便很多空间没用用到也只能浪费着,在vSphere4后添加了自动精简技术,你可以创建一个20GB的硬盘,实际是很小的,随着你写入多少容量这个VMDK文件就动态的增大着,这种技术对存储资源的有效利用是非常有益的,有力的降低着成本;另外重复数据删除也是一个好的方向

[ 本帖最后由 deadwind 于 2009-7-8 20:58 编辑 ]
作者: brucewoo    时间: 2009-07-08 21:48
3、你的二手低档存储介质是否已经空置?能否有效将之利用起来?

二手低档存储介质一般用来为各种应用搭建测试环境,或者拿来存放一些不太重要应用系统
的数据备份。如果容量太小,利用价值小于电费,则直接淘汰了。
作者: 笑儿    时间: 2009-07-08 21:57
原帖由 草上飞2008 于 2009-7-6 09:35 发表
另外,我们也可以选择、尝试各种软件的分布式文件系统解决方案(集群文件系统、集群存储系统),来管理这些数据。例如lustre、hadoop、PNFS、Moosefs等等。
    3、其他的虚拟化解决方案,例如用Vamware等,

名称是不是写错了啊~
作者: gamester88    时间: 2009-07-09 10:52
呵呵,对于虚拟化存储不是太了解啊
作者: bbjmmj    时间: 2009-07-09 13:33
原帖由 剑次狼 于 2009-7-8 16:41 发表
1、面对数据猛增,如何有效区别重点数据?如何了解 数据占用着什么资源?如何监控存储设备状态?
貌似对于现在数据猛增情况下,有足够经济的企业采用统一存储类,而一般中小公司会想各种替代方法来实现。


我觉得现在存储技术面临的最大难题是PC硬盘容量的飞速增长,基本上5到6年增长十倍,而且性能提升也非常快,如果采用SAS、FC、SCSI一类的小容量服务器硬盘,根本就无法解决PC容量飞涨的的问题,所以我觉得,使用PC硬盘做网络存储,才是最根本的解决之道。
某以为,高效费比的存储方案,因为效费比高就意味着商业利益大幅减少,商家肯定是不会做这个东西,所以就只能从开源软件里面找了。
作者: 草上飞2008    时间: 2009-07-09 14:10
原帖由 forward51 于 2009-7-8 19:08 发表
前来学习,冒昧问一下一楼第三条是不是打错了
vamware



呵呵,不好意思啊,多了一个字母
作者: wxfjx    时间: 2009-07-09 15:52
虚拟存储不明白,我们公司倒是用虚拟机做测试机

公司不断增长的数据就是买大的硬盘
作者: ldw21cn    时间: 2009-07-09 17:34
寻找节省数据存储成本的有效措施!文件虚拟化、集群文件系统是否可行?


可行!这将是未来的技术革命,现代服务器系统的性能、磁盘容量的大幅提高,在未来是可行的!
文件虚拟化,是在文件服务器和访问的客户机之间创建一个抽象层。一旦应用,文件虚拟化层管理跨服务器的文件和文件系统,允许管理员向客户机提供一个所有服务器的逻辑文件挂接。这台服务器将继续托管文件数据和元数据。
集群文件系统,基于网络存储的集群文件系统概述基于网络存储的集群文件系统又可称为SAN文件系统,系统中存在两类节点:客户端和元数据服务器,像oracle集群文件系统OCFS与网络文件系统NFS。
作者: ldw21cn    时间: 2009-07-09 17:38
F5、博科等多种文件虚拟化(存储虚拟化)方案,你觉得哪个好?


应该是F5好,或是博科更好点,或是两家都好!各有利弊,各有千秋!
作者: ldw21cn    时间: 2009-07-09 17:59
lustre、hadoop、PNFS、Moosefs等集群文件存储方案,你觉得哪个好?


我觉得Moosefs好,比较容易配置,不像前几种配置复杂

Lustre,是开放源代码的集群文件系统, 采取 GPL 许可协议,集群计算机里,计算机与磁盘间数据交换速度的提升无法跟上微处理器和内存增长的速度,从而也拖累了应用程序的性能。是一款基于目标的集群文件系统,但是它并不支持T10 OSD,而且底层存储分配管理也是基于块的。它的配置包括Lustre MetaDataServer和Lustre Object Storage Servers。文件操作绕过MetaDataServer,利用集群中的并行数据路径访问ObjectServer。服务器是以备援目的而配合成对的。Lustre可以在不同类型的网络下运行,其中包括IP网络和InfiniBand网络。

hadoop,采用master/slave架构。一个集群里有一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。(见附件)Datanode在集群中一般是一个节点一个,负责管理节点上它们附带的存储。在内部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。Namenode执行文件系统的namespace操作,例如打开、关闭、重命名文件和目录,同时决定block到具体Datanode节点的映射。DatanodeNamenode的指挥下进行block的创建、删除和复制。NamenodeDatanode都是设计成可以跑在普通的廉价的运行linux的机器上。采用java语言开发,因此可以部署在很大范围的机器上。一个典型的部署场景是一台机器跑一个单独的Namenode节点,集群中的其他机器各跑一个Datanode实例。这个架构并不排除一台机器上跑多个Datanode,不过这比较少见。

PNFS,(Parallel NFS,并行 NFS)是同OpenSolaris开,它为客户机提供了独立访问文件数据(文件内容)和元数据(有关文件的信息,如名称、位置和大小)的功能。这种分离功能使文件数据可按照所需的方式进行存储

Moosefs,一个具备容错功能的网络分布式文件系统,它将数据分布在网络中的不同服务器上,MooseFS 通过FUSE使之看起来就是一个 Unix 的文件系统。

ddxkntwd_24fwt83gcp_b.png (35.06 KB, 下载次数: 80)

hadoop文件系统架构图

hadoop文件系统架构图

2009-07-09-174853_585x435_scrot.png (79.06 KB, 下载次数: 78)

Lustre文件系统架构图

Lustre文件系统架构图

2009-07-09-175218_497x500_scrot.png (8.29 KB, 下载次数: 89)

PNFS文件系统架构图

PNFS文件系统架构图

architecture.png (55.34 KB, 下载次数: 86)

Moosefs文件系统架构图

Moosefs文件系统架构图

作者: ldw21cn    时间: 2009-07-09 18:04
寻找节省数据存储成本的有效措施!文件虚拟化、集群文件系统如何选?


文件虚拟化允许企业访问网络文件服务器上隔离的存储容量,并且在上面进行无缝的文件迁移。
作者: ldw21cn    时间: 2009-07-09 18:06
寻找节省数据存储成本的有效措施!文件虚拟化、集群文件系统如何选?


集群文件系统,太多了,应该选择稳定性好、易配置的文件系统MFS
作者: lasama    时间: 2009-07-09 21:52
VMWARE虚拟机我见过的还只有用来做开发环境或者测试环境,有部署在生产系统上的么?能否透漏一下做什么应用的不?
如果能透露一下架构就更好了  
作者: lasama    时间: 2009-07-09 21:55
原帖由 草上飞2008 于 2009-7-6 09:35 发表
lustre、hadoop、PNFS、Moosefs等集群文件存储方案,你觉得哪个好?




集群文件系统、分布式文件系统和并行文件系统之间有什么区别和联系?
作者: frangce    时间: 2009-07-10 08:37
原帖由 lasama 于 2009-7-9 21:55 发表



集群文件系统、分布式文件系统和并行文件系统之间有什么区别和联系?



顶,呵呵,
作者: frangce    时间: 2009-07-10 08:39
原帖由 lasama 于 2009-7-9 21:55 发表



集群文件系统、分布式文件系统和并行文件系统之间有什么区别和联系?



这些系统主要叫 分布式文件系统,  但有些人,又把它叫 集群文件系统,

分布式文件系统跟 共享式文件系统是对立的,
作者: markinger    时间: 2009-07-10 08:49
原帖由 草上飞2008 于 2009-7-6 09:35 发表
前段时间讨论了数据备份省钱之道,现在,在2009系统架构师大会召开之前,我们再次展开“数据猛增,如何有效降低数据存储管理成本?”的主题讨论,欢迎大家积极参与。

    话题背景:在当前的经济危机下,企业 ...



   5、包括SAN、NAS等多种实际存储环境中,你的方案部署、数据备份的时间成本如何?是否有节省时间的措施?
   6、存储虚拟化(文件虚拟化)技术中,技术实现分为:内、带外两种实现方式,到底哪种方案更好?

 7、F5、博科等多种文件虚拟化(存储虚拟化)方案,你觉得哪个好?
   8、lustre、hadoop、PNFS、Moosefs等集群文件存储方案,你觉得哪个好?
   9、其他的成本节省措施,或者你所关注的存储问题,欢迎提出来!


正好问点问题,

前段时间听到F5的Acopia, 就是叫文件虚拟化方案,

这个Acopia方案,NAS、SAN这两种存储结构,是不是都可以进行虚拟化?   另外,其他厂商的方案是怎样的呢?


6、存储虚拟化(文件虚拟化)技术中,技术实现分为:内、带外两种实现方式,到底哪种方案更好?

Acopia方案里提到的支持旁路模式, 这到底是  带外,还是带内方式?
作者: luren04    时间: 2009-07-10 08:59
对于第七点:博科是吹得很牛,但没机会用过; ,F5前今天才听说。
作者: 冬瓜头    时间: 2009-07-10 10:07
目前节省空间的最有效办法就是dedup和thin provision了。
作者: vepeta    时间: 2009-07-10 12:33
原帖由 冬瓜头 于 2009-7-10 10:07 发表
目前节省空间的最有效办法就是dedup和thin provision了。

高人来了 拜拜
作者: aaaaa5aa    时间: 2009-07-13 11:29
原帖由 草上飞2008 于 2009-7-6 09:35 发表
前段时间讨论了数据备份省钱之道,现在,在2009系统架构师大会召开之前,我们再次展开“数据猛增,如何有效降低数据存储管理成本?”的主题讨论,欢迎大家积极参与。

    话题背景:在当前的经济危机下,企业 ...

1、包括SAN、NAS等多种实际存储环境中,你的方案部署、数据备份的时间成本如何?是否有节省时间的措施?

NAS实储将FC等区块型存储环境转变为以太网络上的资源这个是其很大的优势之一,但其鸡肋在于在与FC区块存储
之间进行高效,快速的通信。一个很巧的方法就是在Filer文件处理技术中加入FC区块存取功能,为每个LUN配置适
当的文件伺服系统容量,这样在与FC区块通信时不会消耗太大的时间,有效的提高了数据传输等服务。


 2、F5、博科等多种文件虚拟化(存储虚拟化)方案,你觉得哪个好?

个人还是比较倾向于F5公司的文件虚拟化(存储虚拟化)方案,感觉其的F实现虚拟化的途径多,而且很方便,特别是
目前F5公司还与VMware企业合作,很大程序上提高了其虚拟化技术。

  3、其他的成本节省措施

自动精简配置(thin provisioning)在节省空间上有了很大的优势,很多厂商都纷纷推出的该项技术,其最大的优
点就是能够动态的调配用户的空间,在原有的存储管理下,即使用户有临时的空间需求,哪怕只是一天、两天,也需
要去给整个系统添加容量,而这个时候,其它的用户也许还有许多的空闲空间。Thin provisioning技术在帮助用户
节约空间,并可以动态分配空间后,对于用户最大的好处其实是在于能够节省下很多用户用以购买那些并不需要的空
间所花费的预算,而更少的硬盘数,其实也帮助用户的存储系统更加绿色。
作者: leetaedong    时间: 2009-07-14 20:39
呵呵,对 F5 比较有兴趣.

Lustre 好像是被sun 收购了.
据说,在排名前100位的HPC集群系统中,其中的20%都在使用Lustre,排名前30的设备中超过一半的设备在使用Lustre。
作者: 爱斯基摩寂寞    时间: 2009-07-15 08:42
软硬结合的“文件虚拟化”解决方案
作者: blackjack550    时间: 2009-07-15 09:30
十分想参加这个活动,哈哈
作者: blackjack550    时间: 2009-07-15 09:32
貌似存储一直都是一个比较烧钱的活,真的很想了解了解san的架构, 可望而不可及啊
作者: blackjack550    时间: 2009-07-15 09:34
我记得监控存储设备的状态貌似就是一些监控系统那样 实现磁盘使用大小的监控,现在还可以实施更强大的监控么?
作者: blackjack550    时间: 2009-07-15 09:36
不太了解 大型的存储体系怎么在线扩容,可以把磁盘插上划入卷内么?~这样的话太强大了吧
作者: blackjack550    时间: 2009-07-15 09:38
现在什么都讲虚拟化,连存储都要虚拟化么?
作者: blackjack550    时间: 2009-07-15 09:39
原帖由 ljjcover 于 2009-7-6 16:33 发表
有用过的么?
自己先下载试试吧

貌似都没怎么听说过
作者: blackjack550    时间: 2009-07-15 09:42
原帖由 wadezq 于 2009-7-7 12:16 发表
如果对写的问题要求不是很高的话,可以用廉价的sata盘。

把以往的数据归档,放到其他的服务器上。毕竟老的数据访问的几率还是比较少的。


开源的存储也可以用freenas 自己测试了一下,觉得性能还不错。

这个自己用过,性能确实不错。没有啥问题,不过没用用于生产 访问量不是很大没有相关测试,希望有测试的朋友可以提供一些信息
作者: blackjack550    时间: 2009-07-15 09:42
原帖由 sery 于 2009-7-8 16:07 发表
我已经用moosefs实施了几个访问量大 数据量大的项目

moosefs的站点是 http://www.moosefs.org

呵呵正要找呢,谢谢啊
作者: blackjack550    时间: 2009-07-15 09:46
原帖由 bbskuang 于 2009-7-8 16:10 发表
第一,尽量不买贵的阵列
第二,尽量用sun或其他公司的openstorage
第三,尽量用红帽GFS或BSD的MOOSEFS
第四,尽量听草上飞唐哥的推荐。

报告完毕

呵呵  经典
作者: blackjack550    时间: 2009-07-15 09:51
原帖由 草上飞2008 于 2009-7-8 16:24 发表



sery说的moosefs,是不是这样的结构?

1、        元数据服务器。在整个体系中负责管理管理文件系统,目前MFS只支持一个元数据服务器master,这是一个单点故障,需要一个性能稳定的服务器来充当。希望今后MFS ...

学习了, 正在看这个呢 发现他的模式是不是跟服务器dr有点像啊
作者: blackjack550    时间: 2009-07-15 09:53
虚拟化还是很值得学习的,本来一直想好好了解一下虚拟化的问题。一直对这个概念很模糊的说
作者: blackjack550    时间: 2009-07-15 09:54
原帖由 wxfjx 于 2009-7-9 15:52 发表
虚拟存储不明白,我们公司倒是用虚拟机做测试机

公司不断增长的数据就是买大的硬盘

虚拟存储和虚拟机是一个意思么?这点我一直很晕,同样再说在一台机器虚拟多个系统。可是就是不太明白怎么实现的。而且彼此系统独立不会相互影响
作者: blackjack550    时间: 2009-07-15 09:57
原帖由 ldw21cn 于 2009-7-9 17:59 发表


我觉得Moosefs好,比较容易配置,不像前几种配置复杂

Lustre,是开放源代码的集群文件系统, 采取 GPL 许可协议,集群计算机里,计算机与磁盘间数据交换速度的提升无法跟上微处理器和内存增长的速度,从而 ...

是前面3个画的图太火星了。 也就最后一个比较好看懂。。
作者: blackjack550    时间: 2009-07-15 09:59
原帖由 lasama 于 2009-7-9 21:52 发表
VMWARE虚拟机我见过的还只有用来做开发环境或者测试环境,有部署在生产系统上的么?能否透漏一下做什么应用的不?
如果能透露一下架构就更好了  

应该虚拟化不是传统方式的那种vmware虚拟吧?如果那样的话开机同时启动两套系统必然很慢啊何况网络连接也会有问题啊。怎么用于服务器啊
作者: blackjack550    时间: 2009-07-15 10:00
其实还有好多问题想问,只好带着疑问去 参加活动了
作者: blackjack550    时间: 2009-07-15 10:05
真是也就对F5有点认识,那个叫博科的都没有听说过呢还
作者: blackjack550    时间: 2009-07-15 10:06
原帖由 ldw21cn 于 2009-7-9 18:04 发表


文件虚拟化允许企业访问网络文件服务器上隔离的存储容量,并且在上面进行无缝的文件迁移。

总觉得如果不中断服务扩容这个事情太夸张了,就是热插拔可以办到,但是实时改变卷的容量怎么来说也是不可能的吧。现在的工程师简直太强大了
作者: blackjack550    时间: 2009-07-15 10:09
记得就算在一前公司存储也是一个很让人头大的问题。主要还是用什么存储方案比较可靠,稳定。测试过很多的存储方案都觉得不太理想。不过还是觉得存储一定要独立出来共享调用这样比较方便
作者: blackjack550    时间: 2009-07-15 10:11
还有一个问题请教,我记得在玩windows sql集群的时候 用sql的集群设置,中间他让需要共享磁盘。那个共享磁盘的意思。是不是就是这种共享类存储呢。一直很不明白,当时测试用vm所以直接可以改配置文件。但是应用到生产的话,那个共享存储应该是独立文件存储器吧?不知道哪位高人知道。
作者: blackjack550    时间: 2009-07-15 10:14
存储如果传输量大的话  增加mtu是不是可以增加传输效能呢?就是如果传输数据块比较大,增加网卡的mtu是不是就可以缩减时间?当然如果修改的话交换机也得修改。
还有存储网络一定要千兆么?~如果百兆会不会影响其他网络传输
作者: sparkingcn    时间: 2009-07-15 15:19
标题: 回复 #1 草上飞2008 的帖子
很有意思的一个讨论
我正好在最近2年设计、开发过存储虚拟化。它的确是一个非常酷的技术。通过gns,数据的位置对用户是透明的。这种方案的关键是如何解决NFSv2, v3的性能,nfs lock, 如何做透明化的migration, replication, 安全性等。从市场来说,类似博科的方案将来会有生存压力。这也正是我们当初研发的产品没有最终面世的原因。

对于类似lustre, hadoop, pnfs, moosefs等方案来说,我一直比较感兴趣。普遍的问题是这些系统对交互式很强的应用难以适应,比如数据库。相对来说一些静态的数据可能更合适用他们。最好不要有多个用户同时修改同一文件的同一位置。
在这一方面,lustre做得最好。宣称是完全posix兼容。目前sun收购了lustre,将来应该发展不错。但是由于他是基于内核开发的,给维护,稳定性带来些问题.而且我记得lustre最好部署在有SAN的环境。这给他的应用带来了门槛。
hadoop有点类似google fs,但是他是用java开发的。个人不是很看好他的性能。(不好意思,一直从事服务器端研发,很看重性能)
pnfs说了很久,看上去很美。但是目前利用不是很广泛。难以和cifs, nfsv3抗衡(至少目前是)。我想这也是所有这些新的分布式文件系统没有被广泛应用的原因。

对于用户的需求,我的理解是他们需要你提供工业标准的接口(比如nfsv3, cifs),这样他们不需要改他们的环境,程序。同时也要求你提供gns, 透明的migration, replication, 无限扩展功能,易管理,廉价的硬件设施等。

不知道我的理解对不对,目前正打算做一个存储系统(非软件方案),来满足上面的需求。可惜时间,人力不够。有兴趣的朋友不妨聊聊。呵呵
作者: shawnlee    时间: 2009-07-15 17:14
提示: 作者被禁止或删除 内容自动屏蔽
作者: beijing_2008    时间: 2009-07-15 17:15
存储在计算机网络中的地位越来越重要,管理也越来越复杂,虚拟化确实是个不错的趋势
作者: byebeijing    时间: 2009-07-15 17:18
文件虚拟化(File Virtualization)是在文件服务器和访问这些文件服务器的客户机之间创建一个抽象层。一旦应用,文件虚拟化层管理跨服务器的文件和文件系统,允许管理员向客户机提供一个所有服务器的逻辑文件挂接。这台服务器继续托管文件数据和元数据
作者: niaochao    时间: 2009-07-15 17:18
文件虚拟化提供了一些关键的优势,包括一个全局命名空间用来给网络文件服务器上的文件加索引。此外,这种虚拟文件存储整合允许文件服务器之间共享访问存储容量。文件服务器之间实施的数据迁移对于最终用户和应用程序都是透明的。这在分层次的存储基础设施中是理想的。简言之,文件虚拟化允许企业访问网络文件服务器上隔离的存储容量并且在上面进行无缝的文件迁移
作者: oneworldonedrea    时间: 2009-07-15 17:19
文件虚拟化可以部署为一台设备或者一台运行文件虚拟化软件的现成的服务器。这种选择基本上是根据成本以及有关的管理和破坏水平确定的。最常用的部署选择是设备。这种设备有四种不同的架构:带外、带内、这两者的结合和分离路径(Split-Path)。
作者: youanme    时间: 2009-07-15 17:20
文件虚拟化受到可伸缩性的限制。可伸缩性包括文件系统、文件、服务器或者输入/输出性能。文件虚拟化平台还必须要兼容当前的基础设施。这样,它就能够与现有的存储系统和交换机一起工作。要防止出现潜在的问题,文件虚拟化平台应该经常进行适当的可伸缩性和兼容性测试
作者: zhongguozhidui    时间: 2009-07-15 17:21
F5通过将新产品与系统捆绑将目标锁定在了中小企业市场。F5还将推出一个名为ARX Fast Start的套件,将实现文件虚拟化的成本降低了大约50%。
  那些选择了ARX Fast Start套件的用户可以获得一个双节点的ARX500接群,支持高达500名用户和3亿份文件的环境。F5产品管理经理Renny Shen表示

作者: 我爱奥运    时间: 2009-07-15 17:22
学习下,开阔了视野,希望多办此类专题
作者: blackjack550    时间: 2009-07-16 09:56
原帖由 我爱奥运 于 2009-7-15 17:22 发表
学习下,开阔了视野,希望多办此类专题

是啊,要不我这也没啥事情可以多学习学习
作者: blackjack550    时间: 2009-07-16 10:01
原帖由 byebeijing 于 2009-7-15 17:18 发表
文件虚拟化(File Virtualization)是在文件服务器和访问这些文件服务器的客户机之间创建一个抽象层。一旦应用,文件虚拟化层管理跨服务器的文件和文件系统,允许管理员向客户机提供一个所有服务器的逻辑文件挂 ...

这样就算文件虚拟化了么?~感觉这样的机构不是就是nfs那样的文件服务器挂接c/s结构么?~还是后来把这种挂接结构称之为虚拟化?
作者: bbjmmj    时间: 2009-07-16 10:45
原帖由 blackjack550 于 2009-7-15 10:06 发表

总觉得如果不中断服务扩容这个事情太夸张了,就是热插拔可以办到,但是实时改变卷的容量怎么来说也是不可能的吧。现在的工程师简直太强大了


不中断服务扩容是可以做到的,服务器上3块36G硬盘升级成6块146G硬盘,文件系统容量从100G(RAID5)增加到700G(RAID5),整个过程可以不用停机。
作者: 一刀砍死    时间: 2009-07-16 20:07
freeNAS/iSCSI
作者: dynasty    时间: 2009-07-17 17:09
存储虚拟化,支持!
作者: 草上飞2008    时间: 2009-07-18 11:58
原帖由 草上飞2008 于 2009-7-6 09:35 发表
前段时间讨论了数据备份省钱之道,现在,在2009系统架构师大会召开之前,我们再次展开“数据猛增,如何有效降低数据存储管理成本?”的主题讨论,欢迎大家积极参与。

    话题背景:在当前的经济危机下,企业 ...


转一下:ecloud的发贴,

集群技术中,最令人头痛的就是文件的共享,尤其是那些需要读写操作,并且非常频繁的
当前在这方面的技术很多,包括使用NAS/SAN,NFS等传统的网络共享,或者rsync这种非“实时”的方式等等,以及新兴的“网络文件系统”,具有代表性的就是Google

我认为,在普通的网站、电子商务、BS应用软件等领域,过分的研究网络文件共享是有点南辕北辙了
我们为什么那么执著于通过网络共享某个文件,而不从另一个角度改变我们使用这个文件的方式呢?或许我们原本可以不使用这个文件的呢?
因此我认为,我们应该更加从应用层的角度来设计、优化我们的集群而不是过分追求底层的东西。以前我们的一些观点是错误的,“一个为单机运行设计的程序,使可以直接放在一个集群的环境中得到加倍的效果”,这种观点是非常大的误解。网络环境同单机环境有着很大的不同,只有为集群环境量身定做的程序才能够最大限度发挥出效能,同时也便于管理和使用。
幸运的是我们并不需要自己动手来大量的修改我们的程序,现在已经有许多的现成的应用框架,我们可以直接使用。
比如,Websphere ND就是一个非常好的集群应用服务器,标准的ear或者war包可以不需要任何的修改直接部署在Websphere ND环境中,就可以提供集群化的应用服务,所有的session和数据库连接池的处理都由应用服务器来完成,不需要任何人工的干预。
当然这一切的根本是J2EE内建的技术规范提供的良好支持,同样Weblogic和iPlanet等其他的应用服务企业提供类似的功能。
另外一个开源软件的例子就是Zope,Zope也内建了类似的集群功能,同样有Zope服务器来管理session和数据库连接。比如通常的索引功能,在数据吞吐量不是非常巨大的情况下,我们完全可以直接使用Zope的索引服务,而不用再关心传统索引技术中索引文件的网络共享问题了。

所以我认为,一个好的集群应用方案,首先要对应用编程环境进行正确的选型,这样才能做到事半功倍。另外在程序设计过程当中,尽量使用应用服务器的内建功能,或者把那些需要事务处理的逻辑放入数据库中,利用数据库系统现成的事务处理功能。这样就能够大大简化,甚至是彻底消除网络架构上可能带来的各种麻烦。

而对于那些原有的PHP或者cgi编写的应用程序,我觉得最稳妥简便的方法是进行人工分片+url改写,把整个网站分成www1-www10等多个小块儿,这种方法虽然看上去很土,但是的确非常稳定并且有效。只是需要一定量的前期人工操作。一些很大的专业公司的网站,比如ibm,microsoft等曾经长期使用这种技术,这被证明是非常有效的。
作者: Lingsyser    时间: 2009-07-18 12:02
标题: 回复 #1 草上飞2008 的帖子
CFS的几点看法,

1。NFS是使用得最普遍的也是最稳定的网络文件系统。在很多HPC中都经常使用,因为做并行计算mpi时,往往需要共享中间过程产生的大量数据,或者是输入的采集数据非常大(几十GB甚至上TB)(在top500中,一些中低端的配置也用得不少吧)。但由于NFS是那种单server的模式,所以由此产生了NFS server的入口I/O带宽的瓶颈。解决这个问题的途径是,首先了解数据流的各个阶段,有将千兆网卡做bonding的,有将业务数据分组的,有使用FC的高性能raid的。。。
2。从文件系统的角度解决NFS的并行性能的是使用并行文件系统,如PVFS,Lustre,我不知道将Lustre归于并行文件系统一类是否妥当。(Lustre号称在top500中被广泛使用)不过Lustre的牛人之一peter,我倒是见过,并且一眼看上去就是个搞研究的牛人。PVFS我看过早期的源码,实现原理简介明快,对于大文件I/O的聚集带宽性能应该是比NFS强,但metadata的HA,以及I/O server的HA,好像并没有冗余的设计,PVFS采用数据的网络分片方式并发处理I/O流,所以类似与网络的RAID0,但是一旦有一个I/Oserver宕机或者干脆metadata宕机会很麻烦,不知道这些在PVFS2中得到改进没有(我有好久没有看PVFS了,不过我想PVFS2最好支持一下网络RAID5的数据分片,以提高数据的高可靠性。当然,这些都只是性能和可靠性之间的折衷了)。似乎lustre比PVFS在HA方面做得好一些。PVFS和Lustre,个人认为对小文件的支持肯定没有大文件好,这是由他们的原理来决定的。另外,向coda,似乎也是metadata和I/O server的架构,具体没有去研究。
3。还有一个牛文件系统不得不提,这就是GFS。在sourceforge上有opengfs,后来sistina被RH拿了之后,sistina的看家技术GFS顺利成章的成为RH的solution了。GFS不同于PVFS等CFS,GFS应该来说是严格的分布式日志文件系统,不同于PVFS系统的关键在于,GFS的metadat和I/O real data都分布在一个逻辑的存储池上(这个存储池,可以是共享的SCSI盘阵或者光线盘阵,还可以上是iSCSI或者gnbd和lvm组合形成的虚拟可扩展存储块),和传统的本地文件系统类似,不同的是GFS的makefs工具和内核模块都是分布式的。当然GFS的性能,通过实际的使用,我觉得并不是很乐观,它使用dlm锁/gulm锁,似乎带来了性能的不少损失。不过,GFS似乎更通用一些,不向PVFS/Lustre对hpc支持得更好。GFS常常用于LB和HA的并行数据库应用当中。商业的这类FS,象Veritas的CFS好像也不错,和Oracle的rac配合的很好。
4。DAFS,搞存储的人都知道有个netapp,dafs号称可以改善数据通过网络的性能消耗,在对NAS这类设备的改进有帮助。有netapp有用NAS来支持oracle的系统的测试报告,性能好像不错,这个dafs应该发挥了作用。
作者: doep    时间: 2009-07-23 09:31
占位,拜读
作者: xiasanhu    时间: 2009-07-24 11:00
学习一下,公司最近也在弄虚拟化
作者: fssd0131654    时间: 2009-07-24 16:33
看好存储虚拟化
作者: aaaaa5aa    时间: 2009-07-24 17:58
原帖由 Lingsyser 于 2009-7-18 12:02 发表
还有一个牛文件系统不得不提,这就是GFS。在sourceforge上有opengfs,后来sistina被RH拿了之后,
sistina的看家技术GFS顺利成章的成为RH的solution了。……


不错,GFS全局文件系统在技术上的优势不言而喻,它解决了传统一些文件系统的缺点——占用存储空间、
造成数据不一致性的问题。GFS利用廉价普通电脑作为服务器,因此,他可以买很多很多机器来解决存储
容量问题。而至于数据不一致性,Google可能通过“时间戳”给用户提供最新的信息。本身自带的解决方
案也方便了大多数时候日常应用。

但GFS还有一个很大的缺憾,它只能运行在较新的SCSI控制器上,而不能在以前的产品上运行。这直接
导致很多公司企业都放弃用它。而且就其处理较大的块大小,即便是采取了晚分配策略,其缺点依然存
在,而且处理起来很不理想。
作者: vcanb    时间: 2009-07-27 16:36
获奖名单已经发布,在二楼,大家快去看看吧:wink:
作者: jadge    时间: 2009-07-28 17:07
来支持一下啊...呵呵




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2