免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: liaoboda
打印 上一主题 下一主题

有关大量小文件传输的问题 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2007-10-10 19:30 |只看该作者
原帖由 saintdragon 于 2007-10-10 16:04 发表
个人认为是大量的小文件在硬盘上的随机分布导致了磁盘的随机读造成的。
如果有好的文件系统应该有助于解决这类问题。

有人这么和我说,但是今天拿一台有2快1。5K的sas盘的机器试验,速度没有改变,到是io wait小了很多。

论坛徽章:
0
12 [报告]
发表于 2007-10-10 19:41 |只看该作者
原帖由 straw 于 2007-10-10 16:35 发表


我实际工作中也是处理大量小文件,我的文件比你的更小
1,tcp-ip协议在这个地方有影响,小文件能增加package的数量,但是影响不大
2,任何文件系统都一样,不可能会有质的提高,我也曾经测试过ext,xfs,nt ...

谢谢!我们不光是备份的问题,这个关系到整个集群的运算速度。现在平均每个物理内核每秒只能处理一张图片(也就是说 我一百多个计算结点实际上都在等这个)。另外是数据转移的问题,我尝试过一边打包一边传输的脚本,效果基本没用。(我每个存储8个core  4 5T东西压要压都要半天),还不如直接拷。你那里有什么好的传的脚本没,给我推荐下,谢谢了!

论坛徽章:
0
13 [报告]
发表于 2007-10-11 09:33 |只看该作者
这里面又有好多问题和情况可以分析:
第一,集群处理软件是通过何种方式运行的?任务分发?PVM?MPI?
第二,处理程序是如何读取和输出处理结果的?
第三,数据传输过程中数据会不会修改?
其他一些问题

论坛徽章:
0
14 [报告]
发表于 2007-10-11 09:39 |只看该作者
原帖由 liaoboda 于 2007-10-10 13:25 发表

首先要搞清楚下边几点:
1.问题不在tcp-ip这个协议上,我两块千兆网卡bonding最少传输速度应该在200MB/s。而且我大的文件传输速度在180MB/s(实测验证).在lustre里边(8台oss能到900MB/s)。而目前对大量机 ...


我测试IB ,SDR的大约在700多接近800MB/s,DDR的还没实测,还没测小文件的。我测完了准备给华大测,上次都说了给他们测,等他们测完了,你感兴趣的话你就拿去玩几天。:wink:

论坛徽章:
0
15 [报告]
发表于 2007-10-11 13:43 |只看该作者
原帖由 abo8000 于 2007-10-11 09:39 发表


我测试IB ,SDR的大约在700多接近800MB/s,DDR的还没实测,还没测小文件的。我测完了准备给华大测,上次都说了给他们测,等他们测完了,你感兴趣的话你就拿去玩几天。:wink:

你是哪家?什么时候给我们测过?交换机已经还回去了。还有两块卡在我这里呵呵。

论坛徽章:
0
16 [报告]
发表于 2007-10-11 13:44 |只看该作者
原帖由 straw 于 2007-10-11 09:33 发表
这里面又有好多问题和情况可以分析:
第一,集群处理软件是通过何种方式运行的?任务分发?PVM?MPI?
第二,处理程序是如何读取和输出处理结果的?
第三,数据传输过程中数据会不会修改?
其他一些问题

1.sge任务分发
2.现在读取是通过nfs
3.原始图片先拷回来,再处理。现在和那边用samba

论坛徽章:
0
17 [报告]
发表于 2007-10-11 16:12 |只看该作者
从数据处理的逻辑关系上考虑分开存储吧,否则通过SGE进行这样的处理真是不合适
提供的建议是把运算的粒度放粗,另外是不是能考虑把一些数据合并处理(合并成一个文件)

论坛徽章:
0
18 [报告]
发表于 2007-10-11 18:00 |只看该作者
现在已经是五个盘阵对应五台数据产出的机器了。另外每个Run跑出的数据是统一的不能分开,好像要算几个参数。另外这个pipeline是别人提供的,虽然我们自己也在写,但是分开的可能性不大。intel在帮我们调优,不过数据读不进来再调也没有用。另外我们马上要到另外一种机器,数据产生量会是这个的四倍(现在每台机器1。3T每2天,新的为4T每2天)呵呵 都要疯掉了。

论坛徽章:
0
19 [报告]
发表于 2007-10-12 09:56 |只看该作者
如果运算节点不多的话,可以考虑上SAN的共享软件,每个机器接一个HBA卡

论坛徽章:
0
20 [报告]
发表于 2007-10-12 15:05 |只看该作者
原帖由 liaoboda 于 2007-10-11 13:43 发表

你是哪家?什么时候给我们测过?交换机已经还回去了。还有两块卡在我这里呵呵。


认识方林和彭柯吗。你是哪位?

现在我这没实际程序跑,最好有个M5,生物基因,核物理之类的应用程序跑一下,那样的比较真实。

哪位大虾有详细的文件系统优化这块的方案,参考下喽。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP