xdsnet
发表于 2013-06-03 17:31
1、你们平时采用什么技术进行重复数据删除?
想用还没能够用上,现在是手动啊,效率低的很。
2、对于复数据删除技术的三种主要类型:文件级、数据块或数据子块,以及内容识别,你最喜欢那种方式?
就我了解程度来说喜欢的是 数据块或数据子块 ,不过价格太高了,估计只能喜欢了。
3、简单描述一下以上几种技术的优劣?
文件级:粒度比较大,使得压缩率不足,但算法相对简单,实施成本相对较低。
数据块或数据子块:粒度比较小,可以实现很大的压缩率,但算法复杂,实施成本高。
内容识别:对特定的文件类型的特殊重复数据删除,其前提是识别内容格式,就能对其进行增量备份实现删重,从而有比文件级更好的压缩率(识别后的删重相当于块级了)
zhanglong71
发表于 2013-06-03 20:04
看看热闹.回味下曾经了解的东东.听听大家的观点!
映象中,网络加速设备用到了数据块或数据子块去重及内容识别原理.
文件级别的,应该是在大数据存储中.
流氓无产者
发表于 2013-06-04 09:12
硬件级别的是怎么回事啊
mcshell
发表于 2013-06-04 09:28
偶 只用 对比md5,来判断文件是否相同 然后删除旧文件 保证万无一失{:3_186:}
pitonas
发表于 2013-06-04 12:24
还没有用过重复数据删除技术。
fengzhanhai
发表于 2013-06-04 13:35
凑下热闹,呵呵!目前公司还没接触博主所说的这些技术 。对于数据库来说只是增量备份与完全热备结合使用,对于存储的文档及视频内容采用全备并定期归档而已:time:
seesea2517
发表于 2013-06-04 17:53
只是简单备份,循环删除,这么高级的技术用在什么场合上呢?学习学习。
webdna
发表于 2013-06-05 07:54
内存内存再内存,内存才最快
qingduo04
发表于 2013-06-05 08:43
今天我们就来讨论讨论重复数据删除技术的问题:
1、你们平时采用什么技术进行重复数据删除?
目前现网对于备份需求其实挺大,备份数据量每天大约有几T的数据,主要是针对文件备份,比如接口数据,比如数据库表,这种备份方式由数据库的备份机制决定,DB2备份没有单独表的备份,但teradata备份则可以直接把表备份到磁带中。
对于现有机制不存在重复数据的删除操作,因为备份软件也没有这个功能,只有每天进行备份。
2、对于复数据删除技术的三种主要类型:文件级、数据块或数据子块,以及内容识别,你最喜欢那种方式?
目前现网中我们主要使用的是文件级备份,非数据块或者数据子块的备份,针对后两者个人认为是备份程序或者备份系统能够把文件进行细化,比如按照8K或者4K等等一个单位进行备份,如果后续备份中的数据块和前期备份的数据块是一致的,则直接搞一个指针,指向前期的备份,这样就可以节省很大的备份资源,对于采购也是节约很大的费用。
3、简单描述一下以上几种技术的优劣?
正如问题2的描述,目前普遍使用的文件级备份,对于重复数据删除的操作,我们这边还没有普及,个人认为后续数据块或者数据子块备份是前景,毕竟花费越低,功能越强是发展的目标。
只是目前数据块和数据子块的技术还不是太普及,造成当前的费用高些,但是总体而言还是这些技术比较靠谱
milujite
发表于 2013-06-06 10:26
mcshell 发表于 2013-06-04 09:28 static/image/common/back.gif
偶 只用 对比md5,来判断文件是否相同 然后删除旧文件 保证万无一失
MD5不能避免碰撞吧?单纯MD5是肯定不行的吧。