- 论坛徽章:
- 0
|
我们使用数据备份恢复软件networker, avamar和datadomain , 这里谈谈心得.
1、你们平时采用什么技术进行重复数据删除?
使用deduplication技术. 关键是三个要点, 数据文件分块切割, 数据块指纹计算, 和数据块检索. 通过对即将要存储的或已经在存储设备上的数据进行分块切割, 对每数据块进行相应的计算得到唯一的指纹(索引)信息, 然后对比指纹(索引)信息, 删除重复的数据块来达到节省空间的目的.
具体到产品, avamar 是一个c/s 结构的体系, 客户端(linux/windows/solaris)安装avamar agent, 服务器端由avamar服务器及一定数目的存储结点(磁盘阵列)组成. 通过在服务器端注册每个客户端, 加入相应的域(不是windows那个概念)或组,为每个组安排相应的数据集,备份计划,数据过期策略等实现全自动的备份。avamar agent在每次执行备份任务时,会对要上传到服务器的数据进行分析处理,同前一次备份对比后去处冗余数据,最后上传到服务器端处理后的数据。所以相对于avamar客户端而言,每次的备份都是全备份,但上传到服务器的数据仅仅是变化后的数据。这种是在线式的deduplication技术,非常适合wan/lan环境以及大型的虚拟化集群。
EMC的另一个产品, datadomain则是典型的离线式deduplication技术。我们的环境中是networker 结合datadomain,使用datadomain来作为networker的存储节点。networker客户端每次都是传到networker服务器端全部的备份数据,数据存储到datadomain后由datadomain自身来进行重复冗余数据的计算和删除。所以对于使用networker作为备份服务器的客户机,每次执行的可以是全备份或增量备份。
在使用datadomain作为networker的存储节点前我们是用IBM的磁带库给networker做存储,每天的磁带更换与存储运输以及设备监控与维护简直是一段不堪回首的往事啊。使用上了deduplication的datadomain成本和效率都比原来好多了。
2、对于复数据删除技术的三种主要类型:文件级、数据块或数据子块,以及内容识别,你最喜欢那种方式?
文件级别是什么呢?如果是简单的rsync 那这个比较快了,适合小型的文件系统或目录级别等静态内容的备份。但如果是像Oracle rman或export的数据备份, rsync就不行了。数据块或数据子块就是上面我谈到两种deduplication了,是效率很高当然也是很昂贵的。内容识别我想还是基于文件,(二进制)识别?不会有这种技术吧?需要有一个引擎来扫描备份的每个字节数据并生成相应的索引或元数据,技术上来说很复杂,可能效率也是最高的吧。没有用过这样的产品不做评论了。
3、简单描述一下以上几种技术的优劣?
上面一个问题已经说了他们的特点了。不再废话了。 |
|