免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 9394 | 回复: 13
打印 上一主题 下一主题

[RAID与磁盘阵列] [原创] 赞!自学网络存储系统原理与设计{连载} [复制链接]

论坛徽章:
0
1 [报告]
发表于 2010-05-13 20:26 |只看该作者
在这里发这些相关资源是希望更多人得到帮助,当然如果不想上网看的那么麻烦可以联系我购买这个书
我QQ   3 0 7 0 6 9 4 8 0     呵呵
希望看到的人都顶一下  这样能让更多的人得到学习的机会!

论坛徽章:
0
2 [报告]
发表于 2010-05-13 20:26 |只看该作者
1.1.2        数据的价值
与数据量增长相适应的是数据已成为人类最宝贵的财富之一。人们在日常生活和工作中越来越依赖于信息技术,越来越多的重要数据被存储在计算机系统中,这在很大程度上促进了信息和数据管理的自动化,提高了工作效率。对于个人来说,最典型的数据可能是数日撰写的文稿,也可能是数月辛苦下载的多款游戏和数百集的珍藏电视剧与音乐,还可能是数年积累的珍贵的摄影照片或家庭摄像作品。对于公司和企业用户,信息系统的使用提高了企业事务处理和业务运行的效率,用户需求可以得到方便快捷的响应。尤其在金融、通讯、交通等行业中,信息系统中保存的可能是非常重要的商业机密,也可能是大量的设计资料和财务数据,还可能是集团公司庞大的人力资源数据库等。因此,企业对信息系统的依赖性已经到了关系企业存亡的程度。
数据的价值如此宝贵,一旦数据发生丢失或损坏,会给个人和企业都带来不可估量的损失。对于个人用户,数据丢失将会给个人带来精神和物质的双重损失;对于企业和公司,一旦信息系统发生故障导致数据丢失并且不能得到及时恢复,其造成的损失可能是毁灭性的。根据IDC调查,美国在2000年以前的10年间发生过数据灾难的公司中,55%当即倒闭,29%在两年内倒闭,生存下来的仅占16%。在类似的大量调查报告中也表明,大约40%左右的企业在遭遇数据灾难之后没有恢复运营,由于缺少远程备份以及有效的数据恢复技术,剩下的也有1/3在两年内破产。每500个数据中心中,就有1个每年要经历一次灾难。
数据恢复的及时性成为企业兴衰成败的关键所在。一项来自美国明尼苏达大学的研究报告显示,在灾害之后,如果无法在14 天内恢复资讯作业,有75%的公司业务会完全停顿,43%再也无法重新开业,因而有20%的企业在两年之内被迫宣告破产。另一方面,对于灾害所造成的冲击分析显示,各行业最长可忍受的信息系统停机时间分别为:金融业2天、销售业3.3天、制造业4.9天、保险业5.6天。平均来看,一般行业可忍受的信息系统停机时间为4.8天。
人们对于数据价值的日益重视也极大地推动着存储系统发展,大量的提升存储系统安全和可靠的技术不断产生并应用于现实系统之中。
1.2        计算机存储系统概述
应用推进了存储系统的发展,这使得我们有必要对计算机存储系统的内涵和外延进行全面的分析,进而为设计新型存储系统提供更加清晰的思路。
1.2.1        计算机存储系统
现代计算机以图灵机为基本计算模型,以冯•偌依曼的“存储程序式计算机”为基本实现模型。其数据处理依赖于数据存取的过程,表现在两个方面,首先数据计算部件和数据存储是分开的,只有在需要时处理器才按照指令要求把所需的数据从存储设备读入处理器内部寄存器进行处理,在运算完成后把无需立即使用的数据写回存储设备进行保存;另一方面,所有的程序也是以数据的形式存放在存储器上,在执行时把每条指令依次读到处理器执行。
计算机存储系统是用来保存数据,并能够按照用户请求提供相应数据的部件、设备和计算机系统。事实上存储设备在本质上也是一种计算机系统,例如内存条本身也具有计算部件和寄存器。本质上,存储系统使得信息在时间上得以延续,而不会消逝,而计算机存储系统使得数字化信息得以保持在介质之中,在需要的时候能够提供及时的存取。
揭开存储系统的抽象“外壳”,可以发现计算机系统中存储系统具有层次性的结构,存储系统根据和CPU的距离可分为多个层次,每层存储器的数据存取时间、数据传输带宽和容量是不同的。第0层一般是指处理器内部的寄存器组和一级、二级cache,第一层是指主板上的cache和随机存储器,这两层构成第一级存储,也被习惯称为主存储器。CPU可以通过指令直接访问主存储器中的数据。第二层是外存储器,相对于主存储器,二级存储系统不能直接被CPU访问,必须通过输入/输出(I/O,Input/Output)通道进行存取并且提供大容量和非易失的数据存储能力,典型的二级存储设备就是磁盘。第三级存储往往通过mount和dismount操作连接到计算机系统中,它们具有离线存储的特征,典型第三级存储设备是磁带库。第0层的存取时间以纳秒计算,其容量为KB级;而第二层的存取时间以毫秒计算,其容量为TB级。存储系统层次化的主要原因在于满足成本约束的情况,平衡存储容量和性能,得到容量接近最下层而性能接近最上层。存储空间层次化的不利之处在于必须设计复杂的数据管理机制保证数据正确的在不同层次间上下流动。
广义的存储设备包括CPU中的寄存器、多级Cache、内存和外部存储系统。前者也称为内存系统(Memory System),而后者称为存储系统(Storage System)。狭义的存储系统通常就是仅仅指外部存储系统。在本书中如果没有特别说明,存储系统就指外部存储系统。相对于内存系统,存储系统必须提供大容量和非易失性的数据存储能力,非易失性使得存储系统在掉电或者断连主机的情况下能够正确地保存数据。
存储网络的出现,使得存储的层次更加复杂,一个远地存储系统可以为主机提供存储服务,极大地扩充主机可以使用的存储空间,但同时引入了存储空间管理的复杂性。因为每个存储设备总是要提供相应的存储空间供系统存取数据,必须把这些独立的、基础的物理存储空间构成统一使用的逻辑存储空间,这也是存储虚拟化所做的工作,但随着数据存储系统中存储设备和存储层次的增加,这种统一过程的复杂度和难度也相应地增加。
在讨论存储系统层次性之后,存储系统得以使用的前提是必须对于存储空间和存储对象进行编址和标识,逻辑上通过对于标记对象的地址操作实现存储过程。以二进制形式存在的比特数据是计算机系统处理的基本对象,文字、数字、图像、声音和其他各种形式的信息被转化为比特。计算机本质上就是对数据的存储和运算。为了使得计算机能够方便得到数据的存储地址,存储设备必须能够提供数字地址空间,使得处理器通过计算地址读取所需数据或者存放结果数据到相应的存储位置。也就是存储器中的地址信息也是以数字的形式编址的。另一方面使用以数字标识的逻辑地址空间可以有效屏蔽底层存储设备的差异,例如磁盘和光盘在物理结构和存储原理上有很大的不同,但都能够提供寻址空间供计算机存取数据。也就是地址信息作为一种数据和其他的数据是同构的,计算机可以统一处理,这就为间接寻址提供了可能。其中线性编址是最简单的存储空间组织方式,也是计算机最容易理解和处理的。作为主要的存储设备,内存和磁盘都是通过提供线性的存储空间供计算机进行数据存储的。
间接寻址可以保证层次性存储结构的正确使用。寻址方式可以通过执行特定的程序能够产生更多变化,例如文件系统本质上也完成了寻址功能。在现代计算机层次性存储结构中,各层的存储容量有很大的不同。Cache以KB为单位,内存以MB为单位,而磁盘等存储设备是以GB为单位,海量存储系统是以TB为单位。在内存中存取数据的最小单位是机器位长,而磁盘中存取数据的最小单位是数据块,都是线性编址。磁盘等块设备是以LBA的形式提供线性地址的,网络存储系统一般提供数据块和文件两种操作接口。
网络存储系统出现和发展以前,存储系统主要为单个计算机系统提供存放数据的功能,由于存取过程的指令通过CPU发出,因此存储子系统往往依附于CPU和内存子系统为核心的主机系统,提供低速、大容量(相对于内存系统而言)和非易失的基本存储功能,其数据整个存取过程基本上由主机的操作系统控制,这种存储系统称之为DAS结构(Direct-Attached Storage)。事实上,在这种结构中存储系统数据管理和组织功能由本机操作系统实现。在使用存储系统方面也分为两种方式,一种是存储子系统作为层次内存结构的第三级载体,实现和内存交换页的虚拟内存器功能,页的大小是固定的,虚拟内存模块通过在磁盘上开辟一段连续空间保存置换出内存的页;另一种方式就是通过文件系统管理和存取磁盘系统上的数据,其基本方式是通过文件目录树的方式组织数据,而文件通过相应的文件分配表记录数据在磁盘上的物理存放。
数据量的大幅增长对于存储系统设计带来新的挑战,第一,需要更多的存储设备存放不断增加的数据;第二,需要在多个用户之间共享数据,以提高存储系统的利用率;第三,海量数据管理的复杂性必须占用相应服务器的大部分处理能力,这三方面的需求推动独立于单个主机的存储系统的出现。在充分吸收网络技术的基础上,具有大容量、可共享和可扩展的网络存储系统应运而生。这种存储系统具有高性能的处理部件、高速的内外部传输部件和大容量、可扩展的存储能力,事实上它已经成为提供大容量数据存储服务的独立计算机系统。
存储系统虽然在过去几十年内无论在功能还是在规模方面都有了极大的发展,计算机存储系统最为基本的功能依然是保存数据,并提供存取数据的操作集。存储系统通过存储介质存放数据,每种存储介质有其自身的物理存储机理,例如磁盘通过磁记录方式保持二进制数据,并能通过磁头的读写过程实现数据在物理介质的存取。作为存储系统的设计者往往并不需要了解物理存储过程的全部细节,例如磁介质中每个磁簇的磁场变化的具体物理过程。但必须知道实际存储过程的一些宏观特征和操作特征,包括容量、数据布局、性能和可靠性等,例如在磁盘驱动器中,数据是如何按照磁道和扇区分布,磁头的寻找磁道和定位扇区过程及其相应的时间开销。因为这些存取特性直接决定了存储系统的性能和可靠性等设计参数。
另一方面存储系统必须提供一系列存取操作实现对于存储系统中数据的访问,存取操作包括访问接口及其相应的存取操作集。访问接口也提供了用户对于存储系统访问的操作语义集,例如很多块存储设备采用SCSI的访问接口,这种接口提供了以固定大小块为单位的线性空间,请求按照存储单元的块地址进行访问。访问接口事实上抽象存储系统实际存取过程,屏蔽存储系统内部的复杂结构。而对应的存取操作依赖于设备的实际存储机制,例如上述块存储设备提供逻辑块地址到物理地址的映射。事实上在标准的存取接口下,不断优化存储系统中实际的存取操作一直是一个重要的设计方法,另一方面如何设计更加灵活和高效的存取接口也受到越来越多的关注。
数据存储系统就是以提供良好存储服务为目的的计算机软硬件系统。数据存储系统从结构上可以分为物理结构和逻辑结构,前者指数据存储系统中物理设备及其组成方式,包括存储设备、计算设备、连接设备以及相应的拓扑结构等;后者指的是存储系统数据存取和管理的逻辑结构,及其相应的管理软件系统。需要说明的是数据存储系统包括传统上的计算机存储系统,同时比后者具有更丰富的内涵。因为计算机存储系统更主要的是从计算机系统物理组成的角度研究数据存储系统,也即是偏重于物理存储结构设计;而数据存储系统考虑到物理存储结构的同时,也包括在物理基础上设计相适应的逻辑存储结构,而这种逻辑结构必须考虑到数据的应用背景和特征,以及相应的要求对存储系统设计产生的重要影响,另外应用级的存储服务软件也属于数据存储系统的有机组成部分。

论坛徽章:
0
3 [报告]
发表于 2010-05-13 20:27 |只看该作者
{:3_192:}希望得到版主的关注和置顶

论坛徽章:
0
4 [报告]
发表于 2010-05-13 20:28 |只看该作者
1.2.2        存储结构的发展
计算机系统由计算部件、传输部件和存储部件三部分组成。计算部件从最初的单机、发展到基于局域网的集群,最后到基于广域网的计算网格。同样,随着信息的爆炸性增长,存储将经历类似的发展历程。回顾存储技术的发展历史,基于总线的存储系统以服务器为中心,结构虽然简单,但因存在原始容量限制、无扩展性、存取性能受服务器性能限制、无法集中管理等先天缺陷,其被以网络为中心的网络存储系统所取代是历史的必然。网络存储在一定程度上解决了系统在数据共享、可用性/可靠性、可扩展性、可管理性等方面的问题,然而随着数据资源的不断涌现,系统规模的不断扩大,新的技术又迫切地需要被运用到网络存储系统之中,传统的网络存储系统必然要向大规模海量存储集群过渡。可以预见,理想的存储系统应该可以通过外部网络并行存储数据到多个存储设备上,聚合多个设备的带宽以达到外部网络的最大带宽,同时满足存取过程中对可靠性、可用性、安全性等方面的要求。存储技术由简单向复杂的演变过程如下图所示。

图 1.1数据存储系统结构的发展
在上一节中,对于传统存储系统的介绍事实上就是DAS结构,存储子系统通过外部总线和主机相连,不过它也是其他更为复杂的存储结构的基础。
现在网络存储逐渐成为大规模存储系统的基本体系结构。我们称网络存储设备为NAD(Network Attached Disk,NAD)。根据NAD提供的存取接口不同,其软硬件系统结构是不同的。目前最为典型的三种基本网络存储结构是SAN、NAS和iSCSI。图 1.2是NAS系统的基本物理模型,图 1.3为SAN系统的基本物理结构,图 1.4提供iSCSI系统的基本结构。

图 1.2 NAS的物理拓扑结构

图 1.3 SAN的物理拓扑结构
Gibson按接口(面向数据块和面向文件)形式把网络存储分为两大类[1],一是基于SAN结构,SAN系统提供简单、无类型、固定大小的数据块(典型操作为get block,set block),多个SAN的存储设备在逻辑上构成存储池。从接口的抽象角度来看,这和传统的直接连接的存储设备没有什么不同,但由于SAN网络使得多个客户可以同时直接访问共享数据,而SAN系统不能保证它们之间的互斥访问,因此当产生共享访问时,必须对多个客户进行同步,这一工作应该通过建立集中的管理方式解决。另一种是基于NAS结构,它提供丰富的、有类型的、可变尺寸(文件)的层次性的接口(典型操作为read,write和create)。
图 1.2是NAS系统的基本物理模型。NAS开始作为一种开放系统技术的出现是由Sun公司推出的NFS开始的。NAS通过瘦文件服务器的方式把存储设备和外部网络连接起来。对于本地存储设备中的数据整体管理的任务还是由NAS完成,但此时服务器的负载相对减少很多,并且由于瘦文件服务器模式完成的功能要求相对简单,可靠性比DAS有所提高[2]。另一方面NAS实现文件级的数据共享,数据易于管理和维护,同时可以通过扩展,实现NAS设备间的数据备份和容量线性扩展,通过管理软件可以进一步提高整体的存储性能。另外大型的NAS设备的后端可以是高性能的RAID或者SAN网络。其结构如图 1.2所示。NAS最主要的特点是可以通过文件操作语义访问,客户可以使用NFS或者CIFS访问NAS设备。
图 1.4 iSCSI网络存储结构
iSCSI作为一种融合NAS和SAN的技术最初由Cisco和IBM两家发起,提交给Internet 工程任务组(IETF)将其标准化。其结构如图 1.4所示。通过使用iSCSI技术使得本机可以通过数据块操作界面访问网络上的各种存储设备,iSCSI把本机的SCSI请求通过SCSI/IP模块发送到IP网络上,到达目的地时再通过SCSI/IP模块转化SCSI命令对存储设备进行直接的操作[3],对iSCSI连接的存储设备的操作就像对本机的存储设备操作一样。显然IP Storage的出现极大扩展了存储系统的范围,但另一方面,由于经过多次的协议转化和现有传输协议不适应存储特性,使得点对点的数据操作和传输变的复杂而且安全性受到极大的挑战[4]。

图 1.5几种网络存储技术的比较
目前另外一些整合NAS和SAN的技术也在不断发展之中,如IBM的Tivoli SANergy [5],GPFS文件系统等。它允许联入SAN的异种服务器之间共享文件和数据。并且采用的是基于NFS和CIFS的标准的文件系统,使得多个计算机可以同时通过SAN访问共享文件。一方面具有SAN的高速性能,同时保持了NAS在文件共享、安全等方面的优点。总体上这种统一方式分为“垂直”和“水平”两种方式:采用Network Attached Storage Head-end Servers的方式,NAS和SAN是“vertically垂直”的关系;另一种是在SAN中增加元数据服务器,类似于IBM SANergy,通过采用将控制通道和数据通道分开的机制提高数据访问的性能,用户首先向元数据服务器提出请求,得到授权和相应信息后,客户直接和存储设备建立数据通道,数据直接通过SAN 返回客户。
图 1.5提供网络存储系统软件层次结构模型。从中不难发现,各种网络存储技术在系统逻辑层次上具有明显的差别,这也决定了各种网络存储技术的特点。
未来存储网络的发展表现在以下几个方面:
1. 以网络速度的存储。万兆网络作为商业产品出现,对于大多数挂接在以太网上的系统而言,网络对于存储成为最快的路径。管理网络上的磁盘和内存,使之成为统一的存储资源成为关键的技术挑战,系统整体的速度和快速增长的网络速度保持同步,而不必过分依赖于磁盘速度。
2. Internet和局域网成为存储系统的主干。商业系统靠在存储区域网中增加存储设备和服务器的互连提供共享存储,例如光纤通道。然而,最近局域网性能的高速增长缩小了SAN和LAN之间的带宽差距,减小对于分离SAN的需要。基于LAN的网络存储系统提供的扩展性、可靠性和管理的简单性、以及性能等方面能够接近基于FC的SAN,但同时提供满足高速存储的附网低价设备。
3. 非中心的文件服务结构。客户/服务器局域网文件服务在80年代末和90年代直到今天,大多数文件功能被中央文件服务器通过输出一个或者多个存储卷使用,基于Internet的网络文件协议NFS,使得最近一代的网络文件服务器经常被认为就是附网存储,以区别于SAN方法。为了在具有潜力的高速局域网上传输,NAS必须从客户服务器模式进化到并行非中心服务结构,分布存储功能在一组协作的服务器和存储设备中实现。
4. 智能的数据分配和移动。整个存储系统的性能和可靠性主要被分布数据到存储节点或者到磁盘,以及数据在慢速磁盘和快速内存之间移动的时间的策略决定。通过针对特定数据存取模式智能采用相应的策略和机制,如信息预取、网络cache、镜像分片、程序直接的数据块分布、数据迁移等是存储管理的重要研究方向。

论坛徽章:
0
5 [报告]
发表于 2010-05-13 20:28 |只看该作者
1.3        评价指标和功能需求
1.3.1        评价指标
显然存储系统和部件的基本评价指标就是容量,而评价容量的指标就是字节数。当前单条随机存储器的容量大约为GB级,而单个磁盘驱动器的容量为TB级,单张DVD光盘容量为5GB左右,而蓝光光盘容量为20GB,磁盘阵列的容量依赖于其中磁盘驱动器的数量和组织模式,而大规模存储系统的容量从几十个TB到几十个PB不等。存储容量是存储设备的系统静态指标,特别是对于存储设备而言,容量在设备生存期基本是不会改变的;而许多存储系统往往通过系统扩展技术实现实际存储容量的增加。
相对于存储容量,在存储设备和系统中与时间相关的两个基本性能评价指标为系统吞吐率(Throughput)和请求响应时间(Response time)。虽然这两个指标也一直是计算机系统和网络的重要评价标准,但在存储系统中它们往往具有特殊的含义。在网络系统中往往使用每秒比特(Kbit/s,Mbit/s和Gbit/s)来表示网络连接速度,而在存储系统中缓冲区(buffer)和I/O接口的传输速度往往使用每秒字节(KByte/s,MByte/s和GByte/s)表示。而请求响应时间根据存储部件和任务的不同可以从几个ns到几个小时不等。
对于存储系统和部件的设计者而言,吞吐率定义为单位时间内系统能够完成的任务数,它是一个重要指标,反应了系统处理任务的能力。但在实际应用中,吞吐率大小往往依赖于任务的特征,例如磁盘阵列评价指标每秒I/O数量(I/Ops,I/O per Second)就是指每秒的I/O处理个数,显然当每个I/O请求为1MB和8KB时,就会得到不同的吞吐率;并且吞吐率和请求大小一般情况下不具有线性比例关系,上例中通常后者吞吐率也不会是前者的128倍。这种现象来源于多种原因,其中一个原因是每个请求无论大小都需要相对固定用于对请求包进行分析和处理的时间。显然很难仅仅用吞吐率去衡量存储系统的性能。
对于应用程序和用户而言,请求响应时间是他们更加关注的。实际请求的响应时间受到多个方面的影响,首先存储系统结构会影响请求响应时间,例如一个具有本地8MB缓冲区的磁盘驱动器通常就比具有更小缓冲区的磁盘驱动器具有更好的响应时间;其次请求自身的特性也会影响实际的响应时间,例如8MB的请求比4MB的请求有更长的响应时间;再次请求数据的物理存放位置也会对响应时间产生巨大影响,例如本地磁盘中的数据比远程磁盘中的数据具有更小的访问延迟;还有请求响应时间还依赖于当前存储系统的繁忙程度,请求在负载重时比负载轻时有更长的响应时间。实际上还有其他因素也会影响请求的响应时间,例如前后请求是否连续对于磁盘响应时间就是极其重要的。这些都使得在存储系统中对于请求响应时间的计算和分析非常困难。
从上面的分析可以看出,无论吞吐率还是请求响应时间,都涉及到请求或者说负载的特征,不同的负载在相同存储系统上可能具有截然不同的表现,例如一个面向共享应用的分布式存储系统可能对于大量并发读写的负载(科学计算)有很好的性能,但对于具有大量频繁更新操作的联机事务处理(OLTP,On-Line Transaction Process)就有很差的性能。因此在对于存储系统进行评价的时候,确定运行在该系统之上的典型应用负载是非常重要的问题。
正是因为存储系统中影响吞吐率和响应时间的因素太多,所以在当前的研究中很难使用模型的方法精确计算出存储系统的性能,那么更多的采用构建仿真或者搭建原型系统,通过运行典型负载,然后通过实际测量来获取系统的性能。
1.3.2        功能需求
数据量的急剧增加,和数据本身内涵的多样性以及用户不断增长的需要对数据存储系统的功能设计提出了极大的挑战,用户不再仅考虑存储系统的容量和性能。存储系统需要更多的功能满足不断增加的应用需求。特别是在多用户并行的环境中,大规模应用系统的广泛部署对存储系统的性能和功能也提出更多的挑战,主要表现为:
1.        高性能:性能永远是系统设计追求的重要目标,数据存储系统必须能满足用户对性能的需求。用户希望系统整体性能应该能够随着设备性能和数量的增加而增加。对于各种实时性要求严格的特殊应用系统,存储系统必须根据负载特征进行针对性的优化以满足实时性要求;尤其在大数据量和高突发性的应用系统中,吞吐率和命令处理速率是非常关键的性能指标。
2.        可扩展性:存储系统必须能够根据应用系统的需求动态扩展存储容量、系统规模以及软件功能。许多应用系统,如数字图书馆、石油勘探、地震资料处理等都需要PB级的海量存储容量,并且其存储系统结构能够保证容量随时间不断增加。存储系统的设计不仅考虑单个物理存储介质容量的增加,同时还需要从体系结构方面入手,使得系统能够根据需要加入和管理更多的存储设备;而且扩展过程必须表现为在线的扩大,不应该影响前台业务的正常运行。
3.        可共享性:一方面存储资源可以物理上被多个前端异构主机共享使用;另一方面存储系统中的数据能够被多个应用和大量用户共享。共享机制必须方便应用,并保持对用户的透明,由系统维护数据的一致性和版本控制。
4.        高可靠性/可用性:数据越来越被称为企业和个人的关键财富,存储系统必须保证这些数据的高可用性和高安全性。许多应用系统需要24×365小时连续运行,要求存储系统具有高度的可用性,以提供不间断的数据存储服务。
5.        自适应性:存储系统能够根据各种应用系统的动态工作负载和内部设备能力的变化动态改变自身的配置、策略以提高I/O性能和可用性。
6.        可管理性:当系统的存储容量、存储设备、服务器以及网络设备越来越多时,系统的维护和管理变得更为复杂,存储系统的可用性和易用性将受到空前的关注。事实上当前维护成本已经接近系统的构建成本。系统通过简单性、方便性、智能性的设计提供更高的管理性,以减少人工管理和配置时间。
7.        海量数据组织和维护:当前数据具有量大,结构复杂的特点,对于这些海量数据的高效组织和管理成为一件极具挑战性的工作。为所有数据增加特性标签、建立快速和高效的索引结构成为存储系统必须考虑的问题,另外对于数据进行生命周期管理和对冗余数据进行重复删除都是提高存储系统利用效率的方法。
8.        数据存储服务的QoS:数据具有不同的属性(读写频率等),用户对数据也有不同的需要。以往对所有数据一视同仁的方法,只会导致整体存储资源的浪费和服务的低下。而现在的数据存储系统设计必须能够认清这种差别,使用合适的方法更好的满足用户对数据存储的要求。例如,不同存取模式对存储系统有不同的影响,而且系统必须自动的适应存取模式的变化。
9.        高效的能耗管理:大规模存储系统需要消耗大量的电能,设备的空转会消耗大量的电能产生大量的热量,这又导致散热和制冷的功耗增加,因此当前存储系统设计必须考虑如何节省系统运行的整体功耗。
虽然用户期望存储系统能够达到上述列举的多方面功能要求,但在实际的存储系统设计过程中这些功能需求会相互关联、相互制约。例如安全机制的引入往往会对性能有相反的作用。因此在实际的设计之中,需要根据应用的实际需要在多个功能之间进行一定的取舍和平衡。

论坛徽章:
0
6 [报告]
发表于 2010-05-13 20:31 |只看该作者
1.3.3        典型系统
1.        高性能计算领域
对于海量和高性能数据存储最早提出迫切需求的是高性能计算领域,主要来自于科学和工程计算,以及国防安全领域,涉及纳米技术、基因工程、化学和生物、放射、核磁共振图像、流体动力学等各个科学类别和工程领域。由于数据处理过程中,数据计算、传输和存储三个环节密不可分,必须相互配合才能达到任务运行指标。特别是由国家级研究中心负责的面向天气预报、地震预测、航空航天和高能物理等研究工作需要处理大规模数据处理任务。因此,主要承担这些科研和计算任务的国家实验室和高性能中心开始建设大规模存储系统以满足自身大规模数据处理的需要。下表列出截至2008年底,国际范围现有的大容量高性能存储系统。可以看出存储容量基本上都达到PB量级,文件数达到百万以上,并且都是大文件。

表 1.1 2008年底国际上较大的高性能存储系统
System
(Each system shown is a single HPSS instance and namespace)        Petabytes        MillI/On files        Avg
file MB
National Lab (LANL) Secure Computing Facility (SCF)        13.19        104.1        121
Lawrence Livermore National Lab (LLNL) Secure Computing Facility (SCF)        11.72        84.9        132
The European Centre for Medium-Range Weather Forecasts (ECMWF)        10.62        44.9        226
Brookhaven National Lab (BNL)        9.42        52.8        170
Commissariat à l'Energie Atomique/DivisI/On des Applications Militaires (CEA)        7.27        2.1        3233
LLNL Open Computing Facility (OCF)        6.38        76.7         79
National Centers for Environmental Prediction (NCEP)        6.19        5.7        1043
San Diego Supercomputer Center (SDSC)        5.93        52.4        108
Stanford Linear Accelerator Center (SLAC)        4.61        5 .8        753
Institute National de Physique Nucléaire et de Physique des Particules (IN2P3)        4.53        21.2        203
Lawrence Berkeley Lab (LBL) National Energy Research Scientific Computing Center (NERSC)            3.68        61.3        57
Oak Ridge National Laboratory (ORNL)        3.65        10.8        321
LBL NERSC Backup System        2.56                12.1                202
Indiana University (IU)        2.06        18.3        107
LANL Open Computing Facility        1.60        23.7        65
RIKEN in Japan        1.53        3.1        469
National Climatic Data Center (NCDC)        1.10        46.4        23
NASA Langley        0.77        5.0        146
1998年美国能源部Los Alamos国家实验室建立的Mountain Blue-Los Alamos系统,包含了48个128-processor SGI Origin 2000系统,其磁盘存储器的总容量为75TB。此后,于2002年又建立了ASCI Q系统。这个系统由310个32-processor的机器节点加上64个32-processor的I/O节点组成,它用2Gb FC接口连接64个I/O节点及存储子系统,组成了访问带宽为20Gb/s,存储容量达692TB的存储系统。大容量管理受到传统的基于块的文件系统的限制,因而该系统共用了4个文件系统,每2个文件系统管理346TB容量。在2008年,又开始建设世界最快的超级计算机Roadrunner(1.105 petaflop每秒),其中包含12个高性能I/O结点,提供216GB/s的持续数据传输能力,它通过16个双工的万兆以太网络连接到Panasas的PanFS对象存储系统。
此类系统的使用特点是:
1. 能以并行I/O的高带宽支持多用户以数百GB/s的速度访问同一文件;
2. 能支持非常大的文件系统:允许文件规模大到TB级;允许同一目录下有百万个以上的文件;能在一秒钟内创建数千个文件,并支持元数据操作。
3. 能以高带宽将数据移入第三级存储设备;
4. 能自适应预取:完善的预取策略和延迟写(Write-behind)策略。
5. 能控制流量和I/O服务量。
随着新实验设施和更高性能的超级计算机的出现,千万亿级的计算对于新型存储的容量、性能、并行性、可靠性、可用性和管理性等方面提出更加严格的要求;同时研究者必须能够通过存储系统管理、共享和分析这些PB级的数据。这对大规模存储系统提出了更高的要求。例如位于加利福利亚伯克利Lawrence国家实验室的NERSC (The National Energy Research Scientific Computing Center)通过全局文件系统Global File System (NGF)为5个超级计算机系统提供共享存储服务。这5个超级计算机系统分别为Franklin(Cray XT4,9660个结点,Opteron处理器)、PDSF(275个结点,x86处理器)、Jacquard(356个结点Opteron)、Bassi(122结点,POWER处理器)和DaVinci(350个结点,Itanium2处理器)。每个超级计算机系统都有本地的存储空间,并使用不同文件系统,它们必须通过NGF文件系统共享数据。NGF使用IBM的GPFS提供96个卷共132TB的容量,存储设备包括2个DDN S2A 9550(24个阵列组)磁盘阵列和4个IBM DS4500(16个阵列组)磁盘阵列。可以看出,现在海量存储系统必须满足高性能计算机环境对于高带宽、低延迟的要求,并提供大容量、高可用的数据存储服务。
2.        企业级数据中心
随着社会信息化程度的不断深化,日常生产和商务等企事业经济活动也需要大容量存储系统的支持。相对于高性能计算领域渴望采用新存储技术和系统更快、更好的完成计算任务,大量的企事业单位更加关注于在成本约束下如何充分利用成熟的存储技术和存储系统提高自身的生产力和竞争力。因此在现有企业级数据中心基本还是采用磁盘阵列和磁带库系统作为主要的后端存储载体,这些存储设备通过高速的光纤通道网络互联起来,并连接到前端的服务器集群。对于中小型企业往往采用更加廉价和易管理的基于IP的存储解决方案,大量的客户端通过高速以太网连接共享的NAS或者iSCSI存储设备。
当前许多企事业单位还是以数据库作为信息管理和业务运行的支撑平台,而日常作业也大部分属于联机事务处理(OLTP)类型,因此需要存储系统具有低延迟、高每秒I/O处理能力、细粒度的高效存取以及对于读-写-修改模式的优化,例如IBM的DS8000磁盘阵列可以提供4路SMP处理能力,4个4Gbps的FC端口和4.9百万I/Ops能力和256GB的cache容量。在这种应用背景下,存储系统大多使用匹配相应业务量需求的磁盘阵列,而较少使用高性能计算领域中常用的大规模分布式文件系统和独立的I/O处理服务器。由于这些磁盘阵列采用SCSI协议与服务器进行数据通讯,因此使用主机上的文件系统,甚至数据库都可以方便地直接管理和使用这些块设备。
3.        大规模网络信息服务提供商
互联网络的蓬勃发展,人们的工作生活越来越离不开大量信息的支持,例如更多的企业依赖电子商务模式进行商品贸易,又如更多普通人能够制作反映各自生活的影像资料,并通过网络广泛传播,这一切运作都离不开网络信息服务商,例如亚马逊、雅虎和新浪等,它们为百万以上的用户提供高效的包括信息发布、电子邮件、视频点播和电子商务等信息服务,显然大量的业务和用户数据是这些企业赖以生存的根本。
很多网络信息服务商需要构建大规模存储系统以支持日常的业务需要,这种存储系统有别于上述两种类型的存储系统。与一般企业级数据中心相比,他们往往采用基于IP网络的基于成百上千结点的存储集群,运行更加复杂的应用程序,为上万个用户提供并发基于Web的各种服务;与高性能计算领域相比,每个结点是一台普通的商用服务器甚至就是PC级主机,具有独立的处理器、内存和磁盘,所有结点通过商用交换机互联,因此整体硬件价格可以维持在一个较低的水平,具有更高的性能/价格比。另一个显著的特点是,他们的应用往往建立应用级的存储集群,也就是这种集群结构是基于特定的应用,而不是构建通用分布式文件系统,例如构建上百个结点的邮件集群,或者如Google一样,建立面向搜索服务的应用集群系统。而且在这些系统之中,单部件的失效率远远大于高性能计算领域的集群系统,但通过廉价部件的冗余技术提高系统的可用性。

论坛徽章:
0
7 [报告]
发表于 2010-05-14 08:50 |只看该作者
东西不错,就是看起来有点累,呵呵

论坛徽章:
10
处女座
日期:2015-01-22 16:08:50技术图书徽章
日期:2018-09-13 11:25:52技术图书徽章
日期:2018-09-13 11:25:45技术图书徽章
日期:2018-09-13 11:25:37技术图书徽章
日期:2018-09-13 11:25:29黑曼巴
日期:2018-06-04 09:03:192017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:03:402015年迎新春徽章
日期:2015-03-04 09:50:28技术图书徽章
日期:2018-09-13 11:26:01
8 [报告]
发表于 2010-05-14 09:29 |只看该作者
好东西!
希望继续

论坛徽章:
0
9 [报告]
发表于 2010-05-17 11:19 |只看该作者
楼主是出版社的人?

论坛徽章:
1
CU十二周年纪念徽章
日期:2013-10-24 15:41:34
10 [报告]
发表于 2010-05-17 11:24 |只看该作者
不会是书托吧?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP