【话题讨论】三种类型的重复数据删除技术的优劣比较（获奖名单已公布-2013-7-2） - 第2页 - 存储备份 - Chinaunix

xdsnet 发表于 2013-06-03 17:31

1、你们平时采用什么技术进行重复数据删除？
想用还没能够用上，现在是手动啊，效率低的很。
2、对于复数据删除技术的三种主要类型：文件级、数据块或数据子块，以及内容识别，你最喜欢那种方式？
就我了解程度来说喜欢的是数据块或数据子块，不过价格太高了，估计只能喜欢了。
3、简单描述一下以上几种技术的优劣？
文件级:粒度比较大，使得压缩率不足，但算法相对简单，实施成本相对较低。
数据块或数据子块：粒度比较小，可以实现很大的压缩率，但算法复杂，实施成本高。
内容识别:对特定的文件类型的特殊重复数据删除，其前提是识别内容格式，就能对其进行增量备份实现删重，从而有比文件级更好的压缩率（识别后的删重相当于块级了）

zhanglong71 发表于 2013-06-03 20:04

看看热闹.回味下曾经了解的东东.听听大家的观点!

映象中,网络加速设备用到了数据块或数据子块去重及内容识别原理.
文件级别的,应该是在大数据存储中.

流氓无产者 发表于 2013-06-04 09:12

硬件级别的是怎么回事啊

mcshell 发表于 2013-06-04 09:28

偶只用对比md5，来判断文件是否相同然后删除旧文件保证万无一失{:3_186:}

pitonas 发表于 2013-06-04 12:24

还没有用过重复数据删除技术。

fengzhanhai 发表于 2013-06-04 13:35

凑下热闹，呵呵！目前公司还没接触博主所说的这些技术。对于数据库来说只是增量备份与完全热备结合使用，对于存储的文档及视频内容采用全备并定期归档而已:time:

seesea2517 发表于 2013-06-04 17:53

只是简单备份，循环删除，这么高级的技术用在什么场合上呢？学习学习。

webdna 发表于 2013-06-05 07:54

内存内存再内存，内存才最快

qingduo04 发表于 2013-06-05 08:43

今天我们就来讨论讨论重复数据删除技术的问题：
1、你们平时采用什么技术进行重复数据删除？
目前现网对于备份需求其实挺大，备份数据量每天大约有几T的数据，主要是针对文件备份，比如接口数据，比如数据库表，这种备份方式由数据库的备份机制决定，DB2备份没有单独表的备份，但teradata备份则可以直接把表备份到磁带中。
对于现有机制不存在重复数据的删除操作，因为备份软件也没有这个功能，只有每天进行备份。
2、对于复数据删除技术的三种主要类型：文件级、数据块或数据子块，以及内容识别，你最喜欢那种方式？
目前现网中我们主要使用的是文件级备份，非数据块或者数据子块的备份，针对后两者个人认为是备份程序或者备份系统能够把文件进行细化，比如按照8K或者4K等等一个单位进行备份，如果后续备份中的数据块和前期备份的数据块是一致的，则直接搞一个指针，指向前期的备份，这样就可以节省很大的备份资源，对于采购也是节约很大的费用。

3、简单描述一下以上几种技术的优劣？
正如问题2的描述，目前普遍使用的文件级备份，对于重复数据删除的操作，我们这边还没有普及，个人认为后续数据块或者数据子块备份是前景，毕竟花费越低，功能越强是发展的目标。
只是目前数据块和数据子块的技术还不是太普及，造成当前的费用高些，但是总体而言还是这些技术比较靠谱

milujite 发表于 2013-06-06 10:26

mcshell 发表于 2013-06-04 09:28 static/image/common/back.gif
偶只用对比md5，来判断文件是否相同然后删除旧文件保证万无一失

MD5不能避免碰撞吧？单纯MD5是肯定不行的吧。

页: 1 [2] 3

Chinaunix's Archiver