免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 949 | 回复: 0
打印 上一主题 下一主题

[归档与迁移] 数据缩减:减少归档数据量 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-07-31 23:41 |只看该作者 |倒序浏览

时至今日,至少在概念上,许多用户对重复数据删除与数据压缩技术都不再陌生。几乎所有主流的数据备份和归档厂商,包括Data Domain、EMC、飞康、IBM、NetApp、昆腾、SEPATON等,都已经采用了重复数据删除技术。
随着磁盘被越来越多地应用于数据备份和归档,依附于磁盘的重复数据删除技术很有可能成为磁盘备份或归档产品的标配功能。将重复数据删除技术与数据压缩技术有机地结合一起,可以实现更高的数据压缩比,有效降低数据存储量,这对采用磁盘进行数据归档来说是十分关键的技术。
中国用户正慢慢开始接受分级存储的理念,并在逐步建立和完善数据备份与归档体系。以重复数据删除和数据压缩技术为代表的数据缩减技术将成为人们持续关注的热点。
面对数据的爆炸性增长,仅仅增加存储介质容量已经不能满足高速发展的各种数据应用,用户对高效数据缩减技术的需求已经逐步显现出来,并且越来越迫切。
目前能实现数据缩减的技术主要有两种:数据压缩和重复数据删除。数据压缩技术通过对数据重新编码来降低其冗余度,而重复数据删除技术则着眼于删除重复出现的数据块。
2?1~3?1
数据压缩的起源可以追溯到信息论之父香农在1947年提出的香农编码。1952年,霍夫曼提出了第一种实用性的编码算法,实现了数据压缩,该算法至今仍在广泛使用。1977年,以色列数学家Jacob Ziv 和Abraham Lempel提出了一种全新的数据压缩编码方式,Lempel-Ziv系列算法(LZ77和LZ78,以及若干变种)凭借其简单高效等特性,最终成为目前主要数据压缩算法的基础。
Lempel-Ziv系列算法的基本思路是用位置信息替代原始数据,从而实现压缩。解压缩时则根据位置信息实现数据还原,因此又被称作字典式编码。目前,存储应用中压缩算法的工业标准(ANSI、QIC、IETF、FRF、TIA/EIA)是由Stac公司提出并获得专利的LZS(Lempel-Ziv-Stac),当前该专利权的所有者是Hifn公司。
LZS算法基于LZ77(如图所示)实现,主要由两部分构成,即滑窗(Sliding Window)和自适应编码(Adaptive Coding)。压缩处理时,在滑窗中查找与待处理数据相同的块,并用该块在滑窗中的偏移值及块长度替代待处理数据,从而实现压缩编码。如果滑窗中没有与待处理数据块相同的字段,或偏移值及长度数据超过被替代数据块的长度,则不进行替代处理。LZS算法实现非常简洁,处理比较简单,能适应各种高速应用。数据压缩的应用可以显著降低待处理和存储的数据量,一般情况下可实现2∶1~3∶1的压缩比。
20?1~30?1
在备份、归档等存储实践中,人们发现有大量的重复数据块,既占用了传输带宽又消耗了相当多的存储资源。有些新文件只是在原有文件上做了部分改动,还有某些文件存在着多份拷贝,如果对所有相同的数据块都只保留一份实例,实际存储的数据量将大大减少,这就是重复数据删除技术的基础。
重复数据删除最早由普林斯顿大学李凯教授提出,称之为全局压缩,并作为容量优化存储技术推广到商业应用。目前,除了DataDomain,EMC、IBM、Symantec、FalconStor等厂商也都通过收购或自己研发等途径拥有了各自的重复数据删除技术,有的还被冠以别名,如单示例存储等。
重复数据删除的实现由三个基本操作组成。首先,待处理数据(文件)被分割成固定或可变大小的数据块,同时生成一张“结构图”,显示这些数据块怎样组成完整的原数据(文件);然后计算各数据块的“指纹”(标识),并根据“指纹”确认该数据块是否与其他数据块相同;最后,丢弃重复出现的数据块,并将“结构图”作为原始数据(文件)存储。
重复数据删除技术的关键在于数据块“指纹”的生成和鉴别。数据块“指纹”是鉴别数据块是否重复的依据,如果不同数据块的“指纹”相同,就会造成内容丢失,产生不可恢复的严重后果。在目前的实际应用中,一般都选择MD5或SHA-1等标准杂凑(hash)算法生成的数据块的摘要作为“指纹”,以区分不同数据块间存在的差异,从而保证不同数据块之间不会发生冲突。但是,MD5、SHA-1等算法的计算过程非常复杂,纯软件计算很难满足存储应用的性能需求,“指纹”的计算往往成为重复数据删除应用的性能瓶颈。
目前,各厂商对各自重复数据删除技术的效用都有不同描述,一般都声称能将数据量减少到原数据的3%~5%,即具有20∶1~30∶1的压缩比。
40?1~90?1
数据压缩和重复数据删除技术都着眼于减少数据量,其差别在于数据压缩技术的前提是信息的数据表达存在冗余,以信息论研究作为基础;而重复数据删除的实现依赖数据块的重复出现,是一种实践性技术。这两种技术虽然针对性不同,但如果能够结合起来使用,可以实现更高的数据缩减比例(40∶1~90∶1)。需要注意的是,如果同时应用数据压缩和重复数据删除技术,为了降低系统处理需求,通常要先应用重复数据删除技术,然后再使用数据压缩技术进一步降低“结构图”和基本数据块的体积。
在归档应用中,存储的数据主要是文件在不同时间的各个历史版本,版本间的差异不是很大,文件中往往有相当一部分内容并未发生改变,重复数据删除技术因而具有较大的应用空间。同时,作为有特定意义的文件内容,使用数据压缩技术通常也可以获得2∶1以上的压缩比。因此,针对归档应用,集成重复数据删除和数据压缩技术将带来显著且可以预期的好处,实现90%以上的整体数据量缩减。
目前,市场上同时具有压缩和杂凑算法的解决方案不多,主要由LZS算法的专利拥有者Hifn提供。除了常见的标准加密和摘要算法,Hifn的安全处理器和相应加速卡基本都集成有压缩处理能力,提供20MB/s~250MB/s的处理能力。最近,Hifn推出了DR 250/255数据缩减加速卡,通过PCI-X和PCI-Express接口为系统提供250MB/s的数据压缩和摘要计算加速,同时进行加密、解密处理。Hifn下一代数据缩减产品处理能力将达到1.6GB/s,并支持IEEE P1619/1619.1标准的磁盘/磁带加密。


LZ77算法示意图
部署重复数据删除技术五原则
大多数环境要求不同等级的保护,因此并非所有类型的数据都适用于重复数据删除。用户应当基于其环境的具体需求来部署重复数据删除技术。控制存储成本显然是企业的当务之急。企业在部署重复数据删除技术时应考虑以下五点:评估在何处部署该技术,包括整个办公环境,数据中心、系统以及虚拟环境;评估重复数据删除技术如何适应现有数据保护环境,包括存储、备份、恢复以及服务器;为顺利部署重复数据删除技术,应检查存储设备和基于软件的解决方案之间的协调性;决定是否需要从重复数据删除存储系统中输出数据到磁带;将重复数据删除存储系统纳入整体数据保护架构之中。


本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u2/73648/showart_1098736.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP