免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 6669 | 回复: 15
打印 上一主题 下一主题

[备份软件] 对海量小文件备份,各位专家有什么意见或建议?谢谢指点 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-10-21 15:06 |只看该作者 |倒序浏览
有几十TB的小文件,每个文件最大不过几十Kb,目前存储里有十几TB以上,看看大家有什么备份建议,谢谢

论坛徽章:
2
IT运维版块每日发帖之星
日期:2015-08-24 06:20:00IT运维版块每日发帖之星
日期:2015-08-25 06:20:00
2 [报告]
发表于 2008-10-21 15:24 |只看该作者
使用TSM,可以做到如下:

针对大量小文件数据环境的备份策略
        在实际的IT工作环境中,经常存在着具有如下特点的数据环境:
1.        文件的数量非常巨大,也就是说存在着数量庞大的独立文件;
2.        每个独立文件的数据量很小;
3.        数据变化并不频繁,特别是改变每个独立文件的频率相对很低。
        面对这种环境,使用常规的增量备份或者差异备份方式,不太容易取得完美的效果。这是由于常规备份方式判断文件是否发生改变的方式造成的。常规备份方式判断文件是否改变,通常采用如下的判断方式:
                当备份或者过期请求发起时:
1.        客户端程序搜索整个客户端需要备份的文件系统以建立一个文件特性描述列表;
2.        服务器端程序搜索整个文件空间,建立一个服务器端的的文件特性列表;
3.        比较这两个列表,如果某一个文件符合备份或者过期的条件,则执行相应的操作。例如该文件仅存在于客户端,但不存在于服务器端,则进行相应的备份操作。
        显然,当用户客户端的数据属于大量小数据环境的时候,再沿用这种判断方式,肯定会有相当的时间会花费在文件特性列表的建立和比较过程中。
        针对这种情况,IBM Tivoli Storage Manager(以下简称TSM),采用了一种基于日志的备份方式(Journal Based Bakckup)。当采用这种方式的时候,用户需要在备份客户端启动日志服务引擎(Journal Service Engine)。该引擎会记录客户端自上次工作结束后,发生改变的所有独立文件。因此,当进行备份的时候,备份客户端会直接从日志服务中获得要备份数据的信息,避免了两个文件特性列表的建立和比较工作,从而极大的提高备份处理速度。当此次备份完成后,日志服务会自动清除独立文件登记的信息,并继续跟踪客户端文件以后的变化。
        目前TSM基于日志的备份方式的适用平台为Windows NT,Windows2000,Windows 2003和Window XP。需要注意的是在TSM 5.2.2版本中,Windows 2003 64 bit的客户端不支持基于日志的备份。

论坛徽章:
0
3 [报告]
发表于 2008-10-21 16:07 |只看该作者
这么多很慢啊!!

论坛徽章:
0
4 [报告]
发表于 2008-10-21 16:20 |只看该作者
主要问题是每天都会新增几百GB的小文件,都需要备份

论坛徽章:
0
5 [报告]
发表于 2008-10-21 17:08 |只看该作者
flash 备份或者 image 备份

论坛徽章:
0
6 [报告]
发表于 2008-10-22 11:18 |只看该作者
LZ的备份是基于什么硬件设备的啊
备份的策略其实不是什么很难得问题
关键是看你的应用

论坛徽章:
0
7 [报告]
发表于 2008-10-26 17:44 |只看该作者
这种需求用硬件备份不是一个好的选择。
你可以使用MogileFS(一个开源的分布式文件系统)来实现自动备份。

# 应用层——没有特殊的组件要求
# 无单点失败——MogileFS启动的三个组件(存储节点、跟踪器、跟踪用的数据库),均可运行在多个机器上,因此没有单点失败。(你也可以将跟踪器和存储节点运行在同一台机器上,这样你就没有必要用4台机器)推荐至少两台机器。
# 自动的文件复制——文件是基于他们的“类”,文件可以自动的在多个存储节点上复制,这是为了尽量少的复制,才使用“类”的。加入你有的图片站点有三份JPEG图片的拷贝,但实际只有1or2份拷贝,那么Mogile可以重新建立遗失的拷贝数。用这种办法,MogileFS(不做RAID)可以节约在磁盘,否则你将存储同样的拷贝多份,完全没有必要。
# “比RAID好多了”——在一个非存储区域网络的RAID(non-SAN RAID)的建立中,磁盘是冗余的,但主机不是,如果你整个机器坏了,那么文件也将不能访问。 MogileFS在不同的机器之间进行文件复制,因此文件始终是可用的。
# 传输中立,无特殊协议——MogileFS客户端可以通过NFS或HTTP来和MogileFS的存储节点来通信,但首先需要告知跟踪器一下。
# 简单的命名空间——文件通过一个给定的key来确定,是一个全局的命名空间。你可以自己生成多个命名空间,只要你愿意,但是这样可能在同一MogileFS中,会造成冲突key。
# 不用共享任何东西——MogileFS不需要依靠昂贵的SAN来共享磁盘,每个机器只用维护好自己的磁盘。
# 不需要RAID——在MogileFS中的磁盘可以是做了RAID的也可以是没有,如果是为了安全性着想的话RAID没有必要买了,因为MogileFS已经提供了。
# 不会碰到文件系统本身的不可知情况——在MogileFS中的存储节点的磁盘可以被格式化成多种格式(ext3,reiserFS等等)。MogilesFS会做自己内部目录的哈希,所以它不会碰到文件系统本身的一些限制,比如一个目录中的最大文件数。你可以放心的使用。

论坛徽章:
0
8 [报告]
发表于 2008-10-27 08:49 |只看该作者
其实海量小文件备份不管用什么备份软件或者方法都不会有很大的帮助,关键是文件系统造成的IO瓶颈,所以关键还是从硬件和文件系统进行优化,至于楼上7楼说的分布式文件系统不太了解,说不定还真的能帮助楼主解决问题。

论坛徽章:
0
9 [报告]
发表于 2008-10-27 11:39 |只看该作者
CommVault的ImageLevel可以实现

论坛徽章:
0
10 [报告]
发表于 2008-10-27 11:59 |只看该作者
mogilefs是可以满足楼主要求的。我们就在用它来备份海量文件的。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP