1 23 / 3 页

论坛徽章:: 0

21楼 [报告]

发表于 2013-06-06 11:15 |只看该作者

1、你们平时采用什么技术进行重复数据删除？
对于数据备份，数据去重要么使用备份软件进行，要么通过备份设备进行。备份软件有很多具备重删功能，比如commvault，可以从客户端或者master端进行去重，一般从客户端去重的不多，主要使用后者，因为源端去重会浪费大量的系统资源，当然有个好处，就是节约带宽。还有就是使用备份设备去重，如VTL基本都有重删功能，比较先进的去重技术是content aware，也就是内容感知，比如sepaton VTL。备份软件去重和VTL去重相比，用VTL的方式比较多。

2、对于复数据删除技术的三种主要类型：文件级、数据块或数据子块，以及内容识别，你最喜欢那种方式？
文件级重删应该没有这个概念吧，因为普通的增量备份都可以做到这一点。大部分都是块级或者内容识别。当然内容识别是最强悍的，因为它粒度细，去重效果最理想，当然去重过程需要的时间也更长。
3、简单描述一下以上几种技术的优劣？
总体说来，使用基于content aware的备份设备进行重复数据删除是最理想的，优点是去重效果明显，不会占用系统资源，可以完全在后台运行，也就是备份完成的时候再找点空闲时间后台去重。使用备份软件去重，效果不太明显，且可能消耗大量的系统资源，尤其是CPU，不过也有它适用的场景，比如我一个客户，做备份级容灾，机器性能OK，不过到灾备机房的带宽有限，这个时候备份软件级别的源端去重是首选。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

qingduo04

小富即安

论坛徽章:: 18

22楼 [报告]

发表于 2013-06-06 21:26 |只看该作者

目前本期引入虚拟带库，就是实现数据块备份，到时候可以据此再进行经验分享......

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redcap0

白手起家

论坛徽章:: 0

23楼 [报告]

发表于 2013-06-07 18:05 |只看该作者

占个地方...

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

mcyeah

稍有积蓄

论坛徽章:: 1

24楼 [报告]

发表于 2013-06-08 10:00 |只看该作者

1、你们平时采用什么技术进行重复数据删除？
这个还没用过啊，学习中...
2、对于复数据删除技术的三种主要类型：文件级、数据块或数据子块，以及内容识别，你最喜欢那种方式？
这个要根据自己具体使用的情况而定了吧，没有具体喜欢哪一种吧，它们的应用场景不同的。
3、简单描述一下以上几种技术的优劣？
如果要求比较精确，要避免误删除的话，用内容识别肯定比较好。文件级的肯定是便于人后来的理解，维护起来比较容易。数据块和数据子块的方式是更底层的去完成这个事情，所以这个应该会很高效，但是需要实现定义好数据结构吧，避免错误删除，毕竟机器没有人智能。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

方兆国

大富大贵

论坛徽章:: 19

25楼 [报告]

发表于 2013-06-08 20:36 |只看该作者

webdna 发表于 2013-06-05 07:54
内存内存再内存，内存才最快

可是内存没法当备份空间啊

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

凯骑龟来

白手起家

论坛徽章:: 0

26楼 [报告]

发表于 2013-06-08 22:16 |只看该作者

我们使用数据备份恢复软件networker, avamar和datadomain , 这里谈谈心得.

1、你们平时采用什么技术进行重复数据删除？
使用deduplication技术. 关键是三个要点, 数据文件分块切割, 数据块指纹计算, 和数据块检索. 通过对即将要存储的或已经在存储设备上的数据进行分块切割, 对每数据块进行相应的计算得到唯一的指纹(索引)信息, 然后对比指纹(索引)信息, 删除重复的数据块来达到节省空间的目的.
具体到产品, avamar 是一个c/s 结构的体系, 客户端(linux/windows/solaris)安装avamar agent, 服务器端由avamar服务器及一定数目的存储结点（磁盘阵列）组成. 通过在服务器端注册每个客户端, 加入相应的域(不是windows那个概念)或组，为每个组安排相应的数据集，备份计划，数据过期策略等实现全自动的备份。avamar agent在每次执行备份任务时，会对要上传到服务器的数据进行分析处理，同前一次备份对比后去处冗余数据，最后上传到服务器端处理后的数据。所以相对于avamar客户端而言，每次的备份都是全备份，但上传到服务器的数据仅仅是变化后的数据。这种是在线式的deduplication技术，非常适合wan/lan环境以及大型的虚拟化集群。
EMC的另一个产品, datadomain则是典型的离线式deduplication技术。我们的环境中是networker 结合datadomain，使用datadomain来作为networker的存储节点。networker客户端每次都是传到networker服务器端全部的备份数据，数据存储到datadomain后由datadomain自身来进行重复冗余数据的计算和删除。所以对于使用networker作为备份服务器的客户机，每次执行的可以是全备份或增量备份。
在使用datadomain作为networker的存储节点前我们是用IBM的磁带库给networker做存储，每天的磁带更换与存储运输以及设备监控与维护简直是一段不堪回首的往事啊。使用上了deduplication的datadomain成本和效率都比原来好多了。

2、对于复数据删除技术的三种主要类型：文件级、数据块或数据子块，以及内容识别，你最喜欢那种方式？
文件级别是什么呢？如果是简单的rsync 那这个比较快了，适合小型的文件系统或目录级别等静态内容的备份。但如果是像Oracle rman或export的数据备份, rsync就不行了。数据块或数据子块就是上面我谈到两种deduplication了，是效率很高当然也是很昂贵的。内容识别我想还是基于文件，（二进制）识别？不会有这种技术吧？需要有一个引擎来扫描备份的每个字节数据并生成相应的索引或元数据，技术上来说很复杂，可能效率也是最高的吧。没有用过这样的产品不做评论了。
3、简单描述一下以上几种技术的优劣？
上面一个问题已经说了他们的特点了。不再废话了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

qingduo04

小富即安

论坛徽章:: 18

27楼 [报告]

发表于 2013-06-09 11:15 |只看该作者

回复 26# 凯骑龟来

看来楼上对备份研究的够透彻啊！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ChinaUnixViewer

白手起家

论坛徽章:: 1

28楼 [报告]

发表于 2013-06-20 11:07 |只看该作者

学习了

回复 26# 凯骑龟来

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

dengbao2001

腰缠万贯

论坛徽章:: 13

29楼 [报告]

发表于 2013-06-20 21:46 |只看该作者

1、你们平时采用什么技术进行重复数据删除？

我们在BE2012上面启用重复数据删除的许可，因为要求蛮多的，所以最近才开始使用，目前效果有待观察

2、对于复数据删除技术的三种主要类型：文件级、数据块或数据子块，以及内容识别，你最喜欢那种方式？

个人理解，数据块或者子块的级别更高，更好的识别重复数据，这种情况下，对客户端（如果是客户端消重）或者服务器端（服务器端消重）的压力都是不小的。我做个备份Lotus数据块的测试，物理机环境下，客户端消重，CPU使用率到了60多，好在维持的时间不是很长。

3、简单描述一下以上几种技术的优劣？

对相关技术不是深入了解，等待大家的分享

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 23 / 3 页

返回列表

Chinaunix › 论坛 › IT运维 › 存储备份 › 【话题讨论】三种类型的重复数据删除技术的优劣比较（获 ...

[其他] 【话题讨论】三种类型的重复数据删除技术的优劣比较（获奖名单已公布-2013-7-2） [复制链接]

浏览过的版块