免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: arron刘

[存储网络] 企业如何建立高效、灵活、扩展的数据存储环境?(获奖名单已公布2013-2-26) [复制链接]

论坛徽章:
0
发表于 2013-02-02 17:46 |显示全部楼层
可以采用目前广泛使用的RAID技术:
磁盘阵列(Redundant Arrays of Inexpensive Disks,RAID),有“价格便宜具有冗余能力的磁盘阵列”之意。原理是利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。磁盘阵列是由很多价格较便宜的磁盘,组合成一个容量巨大的磁盘组,利用个别磁盘提供数据所产生加成效果提升整个磁盘系统效能。利用这项技术,将数据切割成许多区段,分别存放在各个硬盘上。磁盘阵列还能利用同位检查(Parity Check)的观念,在数组中任一颗硬盘故障时,仍可读出数据,在数据重构时,将数据经计算后重新置入新硬盘中。
优点:
提高传输速率。RAID通过在多个磁盘上同时存储和读取数据来大幅提高存储系统的数据吞吐量(Throughput)。在RAID中,可以让很多磁盘驱动器同时传输数据,而这些磁盘驱动器在逻辑上又是一个磁盘驱动器,所以使用RAID可以达到单个磁盘驱动器几倍、几十倍甚至上百倍的速率。这也是RAID最初想要解决的问题。因为当时CPU的速度增长很快,而磁盘驱动器的数据传输速率无法大幅提高,所以需要有一种方案解决二者之间的矛盾。RAID最后成功了。
通过数据校验提供容错功能。普通磁盘驱动器无法提供容错功能,如果不包括写在磁盘上的CRC(循环冗余校验)码的话。RAID容错是建立在每个磁盘驱动器的硬件容错功能之上的,所以它提供更高的安全性。在很多RAID模式中都有较为完备的相互校验/恢复的措施,甚至是直接相互的镜像备份,从而大大提高了RAID系统的容错度,提高了系统的稳定冗余性。

论坛徽章:
0
发表于 2013-02-04 15:23 |显示全部楼层
首先需要看用户的应用场景,现在无外乎三种:(1)结构化数据,也就是咱们一般传统上的关系型数据库,一般在线交易系统产生这种数据较多;(2)非结构化数据,一般式音视频、图片等居多;一般媒体机构产生这种数据较多(3)半结构化数据,也就是结构化和非结构化的数据混合体,例如社交网站上的音视频、图片文件(非结构化)和它们的描述、讨论等信息(结构化);

对于结构化数据,这类数据主要的特点就是数据体积不大,但是数据价值高、数据表比较多,而且需要经常做关联操作,因此这类数据要求系统系统稳定性高,处理速度快,具有分析的功能,能给决策人士提供数据分析支持。而这一块发展的历史最为悠久,市场比较成熟,主要由几个数据库的巨头公司IBM、Oracle等厂商所把持,它们一般提供软硬一体化解决方面,比如Oracle的Exadata、IBM的PureDATA等,也有一些数据仓储软件产品,比如EMC的GreenPlum以及Teradata等。

目前结构化数据的发展非常迅速,主要是互联网发展非常块,积累了大量的非结构数据(音视频、图片等),而它们的压缩比都很低,导致它们所需的存储空间非常大,传统SAN存储网络已经不能满足需求,因此各种以分布式文件系统(HDFS、GFS、GlusterFS等)为基础的集群NAS产品迅速发展起来,这些文件系统可以基于廉价的PC服务器迅速搭建起来,可以提供海量的数据存储空间,和极高的数据可靠性,以及极佳的扩展性和性价比。目前很多的PC服务器可以实现单机24-48个硬盘位,软硬件基础都已经具备了,因此集群NAS系统发展非常迅速。例如:苹果公司的iCloud背后就是采用EMC公司的集群NAS系统isilon搭建的,数据规模达到12PB。

从现实情况来看,半结构化数据的发展最为迅猛,主要是移动互联网的发展非常块,人手一部智能手机,人人都是新闻中心,随时随地都可以发布信息。而这些信息基本上都是半结构化数据(音视频、图片+描述、评论等等),这些信息不仅可以满足海量非结构数据的存储,还提供需要各种结构化数据从存储分析工具(ETL)。因此除了需要DFS系统,还需要在此之上提供各种ETL工具(HIVE、HBASE等)。

其实企业可以根据自身的财力,人力以及需求进行选择对应的产品,成熟稳定的产品固然好用,但是价格太昂贵了,而且后期维护费用很高,而开源的产品虽然免费,但是需要专业的人员进行深入了解,并可能进行二次开发,不过这个过程可以帮助企业积累很多知识,储备很多专业人才。一般在IT开支有限的情况下,基于开源的Hadoop系统搭建大型的分布式存储系统,也有很多小型企业采用开源NAS存储系统FreeNAS构建企业共享存储系统。

论坛徽章:
4
CU十二周年纪念徽章
日期:2013-10-24 15:41:34狮子座
日期:2014-02-10 17:22:57技术图书徽章
日期:2014-02-18 08:44:12技术图书徽章
日期:2014-04-29 14:15:42
发表于 2013-02-05 13:16 |显示全部楼层
hadoop的HBase
mongo的GridFs都是不错的选择

论坛徽章:
0
发表于 2013-02-06 08:16 |显示全部楼层
小弟我小企业待待,真没法从大的层面上说这个问题。我觉得数据永远是无价的,但企业也更追求投资回报率。
不同的阶段有不同的需求。现在你投得再多,可能三年后也觉得这设备落伍,性能低了之类,所扩展性很重要,或者说数据迁移要比较方便。
例如,我现在ESXI 上的虚似机都是存在NAS上,后期性能上跟不上,我可以很灵活的将部份VM进行迁移。
可靠性,数据没了太可怕,因此那些花钱可能看不到效果的事来了,备份怎么做,我在异地机房放了台廉价胡NAS,每周对关键数据使用脚本备份一次。

我说的可能都没有太说到点上,但这是我现在做的。希望大家指正。还有就是本子发本给我做一下日志用吧。

论坛徽章:
1
操作系统版块每日发帖之星
日期:2016-02-11 06:20:00
发表于 2013-02-06 11:18 |显示全部楼层
数据从未完全,一个好的数据结构,所见即所得.

论坛徽章:
2
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:57:09
发表于 2013-02-06 16:18 |显示全部楼层
大数据领域,hadoop和hdfs在未来几年应该还是主流,不过一些商业版的分布式文件系统也开始发力了,比如redhat的gluster。另外,弹性块存储是一个很不错的方向,尤其是开源的sheepdog和ceph,肯定是会产生大量的就业职位。

论坛徽章:
5
丑牛
日期:2014-01-21 08:26:26卯兔
日期:2014-03-11 06:37:43天秤座
日期:2014-03-25 08:52:52寅虎
日期:2014-04-19 11:39:48午马
日期:2014-08-06 03:56:58
发表于 2013-02-10 08:38 |显示全部楼层
急需找到一种新的压缩技术解决这些存储难题

论坛徽章:
4
2015年亚洲杯之巴勒斯坦
日期:2015-04-09 11:23:192015年亚洲杯之约旦
日期:2015-04-10 12:08:322015年亚洲杯之科威特
日期:2015-04-10 12:23:222015亚冠之首尔
日期:2015-07-07 16:11:03
发表于 2013-02-19 14:18 |显示全部楼层
回复 4# shang2010


    说他的优点,尽量不要说缺点啊!!!

论坛徽章:
4
水瓶座
日期:2013-09-06 12:27:30摩羯座
日期:2013-09-28 14:07:46处女座
日期:2013-10-24 14:25:01酉鸡
日期:2014-04-07 11:54:15
发表于 2013-02-19 15:32 |显示全部楼层
终将有一个变革, 高效海量的存储将成为普遍.

论坛徽章:
0
发表于 2013-02-19 22:35 |显示全部楼层
关注中啊~~~~~~~~~
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP