存储技术之前世今生--存储技术现状及未来发展趋势讨论(获奖名单已公布-2013-11-21)
获奖名单已公布,详情请看:http://bbs.chinaunix.net/thread-4112407-1-1.html过去的十年中,存储行业涌现过非常多的具有代表性的新技术,从DAS、到NAS、SAN,从RAID卡到iSCSI、PCIe闪存卡,每种技术都代表了一定的市场细分趋势。说谁取代谁还真不能乱下定论。很多年前就有人说磁带会消亡,磁盘会取代磁带,近几年闪存出现后,也有很多人说闪存会代替磁盘。但是这么多年过去了,现实世界中的磁带还是占有一定的市场,磁盘则是继续占据这主流的存储介质市场。
国内外互联网行业的迅速发展,给存储行业的发展也带来的很大的外部推动力,特别是分布式存储系统和SSD闪存技术在互联网行业大量运用,已经明显影响到传统企业的存储解决方案。而且这种趋势越来越明显。
本期话题:
您所了解的存储技术在介质、协议、设备、分布式、数据管理方面有什么特点?遇到的难题有哪些(有哪些利弊)?
存储系统在云计算、大数据和固态介质时代来临时,将面临何种挑战和机遇(分布式存储,SSD技术等)?
本期嘉宾:
ChinaUnix资深网友,《大话存储1&2》系列图书作者,PMC数据中心存储架构师:张冬老师(社区ID:冬瓜头),存储技术领域专家,先后担任过产品设计、顾问等角色,对存储技术、产品、市场有多年经验积累,对存储技术底层有深刻理解。曾经设计的产品有:SmartMotion、SmartX Insight Suite,UltraAPM等,三项前沿技术专利唯一发明人。现就职于PMC担任数据中心存储架构师。
活动时间:
2013年10月22日-11月16日
本期奖品:
1、优秀参与奖,《大话存储2》图书一本,共5名(可以带张冬老师亲笔签名哦)
2、积极参与奖,PMC纪念U盘一个,共15名
活动要求:
1、 要言之有物,不能低于20个字
2、 本次话题主要关注存储技术的现状及未来的发展的心得体会和使用技巧,其他问题可能不做重点
本帖最后由 race 于 2013-10-23 17:01 编辑
存储是跟应用紧密相关的,什么样的应用环境,决定了使用什么类型的存储,不是什么时髦的东西都能用的上。既要了解存储性能,又要了解需求,还得结合购买能力,这条规则不只在存储引进上有效。
我们单位将近1P的存储,平时基本上都是满的,但数据都是甲方的,我们只是为甲方加工数据,单个数据体在几十G到上百G,工作结束,加工之后的数据移交,中间的过程数据就全部删除。带库能用吗?理论上是可以的,把中间结果备份起来,实际上一直没用,中间结果丢了,就把原始数据加进去重新加工,只是增加点人工和时间而已,省去了购买带库的费用。分布式存储能用吗?把不同品牌,挂在不同集群上的存储整合成一个,理论上也是可以的,实际上也没用,因为目前还没有遇到那么大的数据体,即使强行地整合起来,速度会受到影响,管理成本也上去了。SSD存储速度快,用吗?用了,数据库部分就用上了,速度也提高了,但是所有存储都换成SSD的话,换不起。
存储就是把硬盘组合起来,产生比单块盘更高的性能和效益,存储的快速发展也促进了计算机行业的快速发展,也给我们单位带来了效益,从DAS、NAS、SAN到现在的并行存储,早已经习惯了计算机技术的更替。进进出出的是存储的笼子,不变的只是高高的机柜。 好活动.沙发支持,稍后编辑. 好技术话题,支持! 本帖最后由 forgaoqiang 于 2013-11-05 02:56 编辑
绝对支持 当时在图书馆看了将近一半内容了 要是能有书看完最好啦 先占个位置 然后慢慢回复吧 ~~ :wink:
1、您所了解的存储技术在介质、协议、设备、分布式、数据管理方面有什么特点?遇到的难题有哪些(有哪些利弊)?
要说存储技术肯定少不了以下的三个分类:
①DAS(Direct Attached Storage):这个意思比较明显,就是直接附加存储。介质可以包含几乎所有的存储设备,协议多采用SCSI或者SATA等,本身毫无分布式可言,数据管理方面主要靠宿主系统进行管理,因为是直接附加存储,完全可以进行块级访问。
优点是直接附加,简单且成本低,缺点比较多,受数据线长度(比如SCSI理论最大长度25M)、可连接的存储设备数(容量)限制明显,而且系统和存储不分离,容易出现系统单点故障,且无法良好共享存储。
②NAS(Network Attached Storage):常用于中小型企业,协议采用IP网络共享,存储设备本身带有管理系统,向需要存储的设备提供共享存储。具有一定的分布式能力,能够提供多种不同的文件系统,管理需要在管理存储的主机上设置。
优点仍然是比较方便,而且作为网络文件系统,可以被多个平台使用,比较明显的缺点是无法提供块级访问,而且IP网络有效负载较低,CIFS(windows)和NFS(linux)协议都有较大的开销。
③SAN(Storage Area Network):大名鼎鼎的存储区域网,过去依靠专有的FC协议,专有的交换机,极高的性能,良好的可扩展性和可靠性,能够屏蔽底层介质特性。即使现在来看传统的FC实现还是成本过高,现在基于IP网络的FCoIP视乎发展不错挺有前途的样子。
现在来看,存储虚拟化技术(相同或不同厂家磁盘阵列整合后再分配的虚拟化技术),这些技术都是为了让上层逻辑更加的简单,SINA(存储网络行业协会)提供了比较好的共享存储模型
可以看出现在存储都是在通过一层层抽象(特别是NAS)为上层提供更加简单的逻辑。
分享下当时从《大话数据2》中学习到一些内容:
2、存储系统在云计算、大数据和固态介质时代来临时,将面临何种挑战和机遇(分布式存储,SSD技术等)?
个人认为存储系统的I/O始终是面临挑战的主要问题,特别是针对具有很强的随机读写要求的数据,传统的机械硬盘性能对SSD闪存盘来说,性能可能相差50倍以上,因此依靠RAID以及分布式提高性能是一种方法。当前大数据问题导致对存储空间的要求越来越大。
现在大数据分析对数据系统也是有一定挑战的,目前来看Hadoop的 Map-Reduce 思想能够将数据分布式存放到各个存储中,并分别在不同的位置进行计算,与此类似的还有MongDB的自动管理分区的能力,都是新的分布式技术,为存储提供了不少新的机遇。
除了空间和I/O问题之外,另外一个重要的挑战就是存储网络本身的问题。传统的交换已经无法满足大数据快速传输的要求,而且开销也过大,于是出现了“巨帧”等技术。还有STP技术在存储网络里面却成了“累赘”,大二层是数据网络中的新的挑战。数据存储网络设备也在出现新的技术,比如思科的Nexus系列还有Juniper QFabric产品,还有新的VOQ虚拟出向队列技术,这些都是新的技术。
另外分享下拜读冬瓜头大哥的《大话数据2》的部分笔记,先为占用了大家的版面空间道个歉 {:3_188:}
其他的内容稍微整理下发到CU博客吧~~
SSD对提高IO比较频繁的请求响应速度效果显著,就是太贵,期待技术的进步,SSD能普及 翻了翻作者的书,太武侠了,接受不了,妥妥的压箱底了 存储的确是个令人关注的话题,尤其是在大规模集群应用中的存储性能。 本帖最后由 openview 于 2013-10-23 14:59 编辑
我用的第一块儿磁盘是希捷的。容量1GB。1996年。前几天刚换了一块儿SSD,三星的,容量120GB. 存储从开始的打孔带到后来的5寸软盘3寸软盘,再到后来的硬盘,光盘,磁带,再到SSD硬盘。发展速度之快超出了我们的想象。当然这些还只是单机用的存储设备。我上班后接触到的第一台磁盘阵列是HP的EVA3000.容量2TB。但是就想, 我靠,2TB,啥时候能用完啊。1百多万的东西,放着多浪费啊。结果3年后,公司磁盘阵列换成了HDS的,容量10TB。还是这种感觉。10TB啥时候能用完啊。再看看现在。北京的机房里面,NAS(NetApp)上的数据已经超过30TB。HDS SAN上的数据已经超过20TB。用来做备份的设备也从最开始的HP3060(6030???忘却了!)换成了SUN L500再到现在的EMC DataMain DD860,DD860上的数据已经超过50TB。这些还只是北京数据中心的。美国和欧洲的数据量是中国的10倍还不止。而且数据量还在快速增长。存储产品上的磁盘也是更新换代的很快。IDE,FC,Sata,SAS,SSD。真是应有尽有。容量从几个MB到现在的几个TB。 人类失去存储世界将会怎样???
将来的存储一定会朝着小型化,大容量,节能型这样一个发展趋势去发展的。哈哈。有点儿假大空的感觉。
您所了解的存储技术在介质、协议、设备、分布式、数据管理方面有什么特点?遇到的难题有哪些(有哪些利弊)?
现在用的存储基本是分布式的存储了,HDFS Gluster FS。之前用过iscsi以及nas,san存储。
nas的速率要比san的慢,但便宜。
san的速度快,贵,依赖于FC协议。
HDFS,GlusterFS存储的都是大文件。基本的块一般都是64MB的。HDFS适合一次写入,多次读取的业务。HDFS包括name node及data node。
其中name node存在单点故障的问题。最新版本的YARN架构可以配置cluster.
GlusterFS是用了将metadata及数据一起保存在chunk server。而不像其他的分布式文件系统需要一个单独的server来管理命名空间。
存储系统在云计算、大数据和固态介质时代来临时,将面临何种挑战和机遇(分布式存储,SSD技术等)?
现在单个硬盘都能达到3TB了,觉得存储都是DAS,基本不需要用NAS,SAN。
SSD的存储介质的寿命是个问题。