xdsnet 发表于 2013-06-03 17:31

1、你们平时采用什么技术进行重复数据删除?
    想用还没能够用上,现在是手动啊,效率低的很。
2、对于复数据删除技术的三种主要类型:文件级、数据块或数据子块,以及内容识别,你最喜欢那种方式?
   就我了解程度来说喜欢的是 数据块或数据子块 ,不过价格太高了,估计只能喜欢了。
3、简单描述一下以上几种技术的优劣?
   文件级:粒度比较大,使得压缩率不足,但算法相对简单,实施成本相对较低。
   数据块或数据子块:粒度比较小,可以实现很大的压缩率,但算法复杂,实施成本高。
   内容识别:对特定的文件类型的特殊重复数据删除,其前提是识别内容格式,就能对其进行增量备份实现删重,从而有比文件级更好的压缩率(识别后的删重相当于块级了)

zhanglong71 发表于 2013-06-03 20:04

看看热闹.回味下曾经了解的东东.听听大家的观点!

映象中,网络加速设备用到了数据块或数据子块去重及内容识别原理.
文件级别的,应该是在大数据存储中.

流氓无产者 发表于 2013-06-04 09:12

硬件级别的是怎么回事啊

mcshell 发表于 2013-06-04 09:28

偶 只用 对比md5,来判断文件是否相同 然后删除旧文件 保证万无一失{:3_186:}

pitonas 发表于 2013-06-04 12:24

还没有用过重复数据删除技术。

fengzhanhai 发表于 2013-06-04 13:35

凑下热闹,呵呵!目前公司还没接触博主所说的这些技术 。对于数据库来说只是增量备份与完全热备结合使用,对于存储的文档及视频内容采用全备并定期归档而已:time:

seesea2517 发表于 2013-06-04 17:53

只是简单备份,循环删除,这么高级的技术用在什么场合上呢?学习学习。

webdna 发表于 2013-06-05 07:54

内存内存再内存,内存才最快

qingduo04 发表于 2013-06-05 08:43

今天我们就来讨论讨论重复数据删除技术的问题:
1、你们平时采用什么技术进行重复数据删除?
   目前现网对于备份需求其实挺大,备份数据量每天大约有几T的数据,主要是针对文件备份,比如接口数据,比如数据库表,这种备份方式由数据库的备份机制决定,DB2备份没有单独表的备份,但teradata备份则可以直接把表备份到磁带中。
    对于现有机制不存在重复数据的删除操作,因为备份软件也没有这个功能,只有每天进行备份。
2、对于复数据删除技术的三种主要类型:文件级、数据块或数据子块,以及内容识别,你最喜欢那种方式?
   目前现网中我们主要使用的是文件级备份,非数据块或者数据子块的备份,针对后两者个人认为是备份程序或者备份系统能够把文件进行细化,比如按照8K或者4K等等一个单位进行备份,如果后续备份中的数据块和前期备份的数据块是一致的,则直接搞一个指针,指向前期的备份,这样就可以节省很大的备份资源,对于采购也是节约很大的费用。


3、简单描述一下以上几种技术的优劣?
   正如问题2的描述,目前普遍使用的文件级备份,对于重复数据删除的操作,我们这边还没有普及,个人认为后续数据块或者数据子块备份是前景,毕竟花费越低,功能越强是发展的目标。
   只是目前数据块和数据子块的技术还不是太普及,造成当前的费用高些,但是总体而言还是这些技术比较靠谱


milujite 发表于 2013-06-06 10:26

mcshell 发表于 2013-06-04 09:28 static/image/common/back.gif
偶 只用 对比md5,来判断文件是否相同 然后删除旧文件 保证万无一失

MD5不能避免碰撞吧?单纯MD5是肯定不行的吧。
页: 1 [2] 3
查看完整版本: 【话题讨论】三种类型的重复数据删除技术的优劣比较(获奖名单已公布-2013-7-2)