免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: liaoboda
打印 上一主题 下一主题

有关大量小文件传输的问题 [复制链接]

论坛徽章:
0
31 [报告]
发表于 2007-10-16 10:16 |只看该作者

回复 #30 liaoboda 的帖子

当然我不知道你的应用的具体目标是什么,在我自己的项目里面,一个原则就是:最大限度的避免备份和恢复过程中的拷贝(cp, mv 等)和遍历(chown/chmod -R 等)操作,如果主系统崩溃,用备份系统顶上去就可以了。

我在这里:
http://bbs.chinaunix.net/thread-1002778-1-1.html
帖了项目的文档说明。第一节有关于这个问题的一些数据和分析,有兴趣的话你可以看看。

你的文件平均大小是 2M,似乎用 reiserfs 也不会太理想。我有一个 pdf 文档,是几个文件系统性能对比的,是 SUN 的资料,至于有没有打广告的嫌疑我就不太清楚了,不过有点大,上传比较麻烦。

论坛徽章:
0
32 [报告]
发表于 2007-10-16 10:28 |只看该作者
不过我做镜像备份的时候,这些小文件就是通过“实时”镜像的办法传输的,就是说当主系统上的一个文件发送变化的时候,这个变化会马上通过镜像程序告知备份客户端,客户端利用某种文件传输机制(可选)取回文件。实际的效果还可以,当然还有大量问题有待进一步解决,毕竟现在只是 0.1.1 版。

[ 本帖最后由 Chowroc 于 2007-10-16 10:29 编辑 ]

论坛徽章:
0
33 [报告]
发表于 2007-10-16 10:30 |只看该作者

回复 #31 Chowroc 的帖子

我现在主要用的是sun的4500 呵呵不太好用那个mv_sata的驱动4.4没有。5里边成了sata_mv

论坛徽章:
0
34 [报告]
发表于 2007-10-16 10:31 |只看该作者

回复 #31 Chowroc 的帖子

我没办法避免,首先所有的文件必须都处理一次,其次要整理数据。

论坛徽章:
0
35 [报告]
发表于 2007-10-16 10:32 |只看该作者
原帖由 Chowroc 于 2007-10-16 10:28 发表
不过我做镜像备份的时候,这些小文件就是通过“实时”镜像的办法传输的,就是说当主系统上的一个文件发送变化的时候,这个变化会马上通过镜像程序告知备份客户端,客户端利用某种文件传输机制(可选)取回文件。实 ...

我用过rsync 效果和我nfs 过来cp一样。当然scp更慢

论坛徽章:
0
36 [报告]
发表于 2007-10-16 12:47 |只看该作者

回复 #35 liaoboda 的帖子

我不是用的 rsync,用 rsync 和 cp 是一个道理。

论坛徽章:
0
37 [报告]
发表于 2007-10-16 12:49 |只看该作者
无论你使用那种同步机制,第一次初始化的过程肯定是比较耗时耗资源的。

不过我有个问题,我看了一下你的主贴,你最开始有 16 个磁盘,16 个磁盘并行的话应该也比较快的呀,
你是怎么使用的呢?

也许应该使用分布式文件系统?

[ 本帖最后由 Chowroc 于 2007-10-16 13:06 编辑 ]

论坛徽章:
0
38 [报告]
发表于 2007-10-16 16:18 |只看该作者
原帖由 Chowroc 于 2007-10-16 12:49 发表
无论你使用那种同步机制,第一次初始化的过程肯定是比较耗时耗资源的。

不过我有个问题,我看了一下你的主贴,你最开始有 16 个磁盘,16 个磁盘并行的话应该也比较快的呀,
你是怎么使用的呢?

也许应该 ...

分布式的就是lustre,我最一开始就是做的这个。发现这个对我这种文件特别慢(不过对大文件还可以我8台对大文件能到900MB/s)大概5MB/s。我现在主要试的是48块盘的sun 4500
用了48块500G的sata (我更希望是1T的),分2块每边23块做软raid 5。每个4500 配2个AMD operon 885 2.8GHz cpu(双核) 16G内存 所以我试验过4个进程打包再传,到那边再解,速度也不快。

论坛徽章:
0
39 [报告]
发表于 2007-10-16 17:27 |只看该作者
不是很了解 lustre。不过我感觉 23 块磁盘做 RAID5,这个计算量可能会很大吧?尤其是软 RAID。

打包似乎也不太合适,尤其是如果做了压缩的话,因为这个计算量也是很大的,并且还要二次写磁盘。

我个人觉得你可以用 RAID10 试一下(先做 RAID1)。比如先每两块做一个 RAID1,在将这 24 个 RAID 连成一个大的 RAID0?

另外就是你有没有统计数据,象上面有兄台提到用 sar 做统计。不过我觉得你可以用 SNMP/Cacti 来做,画出的图形非常直观。

论坛徽章:
0
40 [报告]
发表于 2007-10-16 17:39 |只看该作者
top - 09:33:33 up 1 day,  5:59,  3 users,  load average: 0.08, 0.53, 1.17
Tasks: 147 total,   1 running, 146 sleeping,   0 stopped,   0 zombie
Cpu0  :  0.3% us,  0.7% sy,  0.0% ni, 98.3% id,  0.7% wa,  0.0% hi,  0.0% si
Cpu1  :  0.0% us,  5.6% sy,  0.0% ni, 94.0% id,  0.3% wa,  0.0% hi,  0.0% si
Cpu2  :  0.7% us,  0.0% sy,  0.0% ni, 99.3% id,  0.0% wa,  0.0% hi,  0.0% si
Cpu3  :  0.0% us,  0.3% sy,  0.0% ni, 99.7% id,  0.0% wa,  0.0% hi,  0.0% si
Mem:  16328600k total, 16281336k used,    47264k free,    40520k buffers
Swap: 32764556k total,      256k used, 32764300k free, 15300824k cached
[root@ost10 Runs]# df -h
Filesystem            Size  Used Avail Use% Mounted on
/dev/sdy2              97G   11G   81G  13% /
/dev/sdy1             487M   26M  436M   6% /boot
none                  7.8G     0  7.8G   0% /dev/shm
/dev/sdy5             9.7G  276M  8.9G   3% /var
/dev/md0              9.6T  9.6T   43G 100% /md0
/dev/md1              9.6T  3.8T  5.9T  40% /md1
10.1.7.8:/md0/EAS82   9.6T  3.9T  5.7T  41% /tmp
还好 软raid没有想象那么消耗 资源
如果先做raid 1 再0 会浪费大量空间, 现在磁盘空间有限。(6月到现在已经用了200T了还有100T 19号马上要来一个数据产出的大家伙 3天4T呵呵)所以空间第一
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP