免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: arron刘
打印 上一主题 下一主题

[其他] 【话题讨论】三种类型的重复数据删除技术的优劣比较(获奖名单已公布-2013-7-2) [复制链接]

论坛徽章:
13
CU大牛徽章
日期:2013-04-17 11:20:3615-16赛季CBA联赛之吉林
日期:2017-05-25 16:45:4715-16赛季CBA联赛之福建
日期:2017-03-13 11:33:442017金鸡报晓
日期:2017-02-08 10:39:422017金鸡报晓
日期:2017-01-10 15:13:29IT运维版块每日发帖之星
日期:2016-03-15 06:20:01IT运维版块每日发帖之星
日期:2015-10-02 06:20:00CU十二周年纪念徽章
日期:2013-10-24 15:41:34CU大牛徽章
日期:2013-09-18 15:15:45CU大牛徽章
日期:2013-09-18 15:15:15CU大牛徽章
日期:2013-04-17 11:46:39CU大牛徽章
日期:2013-04-17 11:46:28
11 [报告]
发表于 2013-06-03 17:31 |只看该作者
1、你们平时采用什么技术进行重复数据删除?
    想用还没能够用上,现在是手动啊,效率低的很。
2、对于复数据删除技术的三种主要类型:文件级、数据块或数据子块,以及内容识别,你最喜欢那种方式?
     就我了解程度来说喜欢的是 数据块或数据子块 ,不过价格太高了,估计只能喜欢了。
3、简单描述一下以上几种技术的优劣?
     文件级:粒度比较大,使得压缩率不足,但算法相对简单,实施成本相对较低。
     数据块或数据子块:粒度比较小,可以实现很大的压缩率,但算法复杂,实施成本高。
     内容识别:对特定的文件类型的特殊重复数据删除,其前提是识别内容格式,就能对其进行增量备份实现删重,从而有比文件级更好的压缩率(识别后的删重相当于块级了)

论坛徽章:
0
12 [报告]
发表于 2013-06-03 20:04 |只看该作者
看看热闹.回味下曾经了解的东东.听听大家的观点!

映象中,网络加速设备用到了数据块或数据子块去重及内容识别原理.
文件级别的,应该是在大数据存储中.

论坛徽章:
208
巨蟹座
日期:2013-09-02 09:16:36卯兔
日期:2013-09-02 20:53:59酉鸡
日期:2013-09-05 21:21:45戌狗
日期:2013-10-15 20:51:17寅虎
日期:2013-10-18 21:13:16白羊座
日期:2013-10-23 21:15:19午马
日期:2013-10-25 21:22:48技术图书徽章
日期:2013-11-01 09:11:32双鱼座
日期:2013-11-01 20:29:44丑牛
日期:2013-11-01 20:40:00卯兔
日期:2013-11-11 09:21:32酉鸡
日期:2013-12-04 19:56:39
13 [报告]
发表于 2013-06-04 09:12 |只看该作者
硬件级别的是怎么回事啊

论坛徽章:
3
CU十二周年纪念徽章
日期:2013-10-24 15:41:34子鼠
日期:2013-12-14 14:57:19射手座
日期:2014-04-25 21:23:23
14 [报告]
发表于 2013-06-04 09:28 |只看该作者
偶 只用 对比md5,来判断文件是否相同 然后删除旧文件 保证万无一失{:3_186:}

论坛徽章:
5
丑牛
日期:2014-01-21 08:26:26卯兔
日期:2014-03-11 06:37:43天秤座
日期:2014-03-25 08:52:52寅虎
日期:2014-04-19 11:39:48午马
日期:2014-08-06 03:56:58
15 [报告]
发表于 2013-06-04 12:24 |只看该作者
还没有用过重复数据删除技术。

论坛徽章:
10
CU大牛徽章
日期:2013-05-20 10:44:54数据库技术版块每日发帖之星
日期:2015-06-09 22:20:00IT运维版块每日发帖之星
日期:2015-06-05 22:20:00亥猪
日期:2014-08-23 14:52:27摩羯座
日期:2013-11-29 18:02:31CU十二周年纪念徽章
日期:2013-10-24 15:41:34CU大牛徽章
日期:2013-05-20 10:45:31CU大牛徽章
日期:2013-05-20 10:45:24CU大牛徽章
日期:2013-05-20 10:45:13综合交流区版块每日发帖之星
日期:2016-02-12 06:20:00
16 [报告]
发表于 2013-06-04 13:35 |只看该作者
凑下热闹,呵呵!目前公司还没接触博主所说的这些技术 。对于数据库来说只是增量备份与完全热备结合使用,对于存储的文档及视频内容采用全备并定期归档而已

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
17 [报告]
发表于 2013-06-04 17:53 |只看该作者
只是简单备份,循环删除,这么高级的技术用在什么场合上呢?学习学习。

论坛徽章:
1
处女座
日期:2014-01-21 13:20:51
18 [报告]
发表于 2013-06-05 07:54 |只看该作者
内存内存再内存,内存才最快

论坛徽章:
18
卯兔
日期:2013-09-27 17:41:0615-16赛季CBA联赛之佛山
日期:2016-07-09 17:34:45操作系统版块每周发帖之星
日期:2015-12-02 15:01:04IT运维版块每日发帖之星
日期:2015-12-02 06:20:00IT运维版块每日发帖之星
日期:2015-10-07 06:20:00IT运维版块每日发帖之星
日期:2015-10-03 06:20:00IT运维版块每日发帖之星
日期:2015-10-01 06:20:00羊年新春福章
日期:2015-04-01 17:56:06拜羊年徽章
日期:2015-04-01 17:56:062015年迎新春徽章
日期:2015-03-04 09:49:452015年辞旧岁徽章
日期:2015-03-03 16:54:15天秤座
日期:2015-01-14 06:39:28
19 [报告]
发表于 2013-06-05 08:43 |只看该作者
今天我们就来讨论讨论重复数据删除技术的问题:
1、你们平时采用什么技术进行重复数据删除?
   目前现网对于备份需求其实挺大,备份数据量每天大约有几T的数据,主要是针对文件备份,比如接口数据,比如数据库表,这种备份方式由数据库的备份机制决定,DB2备份没有单独表的备份,但teradata备份则可以直接把表备份到磁带中。
    对于现有机制不存在重复数据的删除操作,因为备份软件也没有这个功能,只有每天进行备份。

2、对于复数据删除技术的三种主要类型:文件级、数据块或数据子块,以及内容识别,你最喜欢那种方式?
   目前现网中我们主要使用的是文件级备份,非数据块或者数据子块的备份,针对后两者个人认为是备份程序或者备份系统能够把文件进行细化,比如按照8K或者4K等等一个单位进行备份,如果后续备份中的数据块和前期备份的数据块是一致的,则直接搞一个指针,指向前期的备份,这样就可以节省很大的备份资源,对于采购也是节约很大的费用。


3、简单描述一下以上几种技术的优劣?
   正如问题2的描述,目前普遍使用的文件级备份,对于重复数据删除的操作,我们这边还没有普及,个人认为后续数据块或者数据子块备份是前景,毕竟花费越低,功能越强是发展的目标。
   只是目前数据块和数据子块的技术还不是太普及,造成当前的费用高些,但是总体而言还是这些技术比较靠谱



论坛徽章:
7
双子座
日期:2013-09-09 15:55:31CU大牛徽章
日期:2013-09-18 15:22:06CU大牛徽章
日期:2013-09-18 15:22:20CU大牛徽章
日期:2013-09-18 15:22:26CU大牛徽章
日期:2013-09-18 15:22:31CU大牛徽章
日期:2013-09-18 15:22:37CU大牛徽章
日期:2013-09-18 15:22:46
20 [报告]
发表于 2013-06-06 10:26 |只看该作者
mcshell 发表于 2013-06-04 09:28
偶 只用 对比md5,来判断文件是否相同 然后删除旧文件 保证万无一失


MD5不能避免碰撞吧?单纯MD5是肯定不行的吧。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP