免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 5375 | 回复: 14
打印 上一主题 下一主题

求救!高性能计算集群中共享盘阵使用后频繁无响应的问题!! [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-06-29 15:30 |只看该作者 |倒序浏览
集群体系结构:   
     32节点 HP DL360 380(IO节点外接盘阵为U1,U2,U3)

     主机名为hp-00,hp-01...hp-29 其中29为管理节点(所有机群需要并行运算软件的帐号都创建在此,然

后MOUNT到所有节点)

     网络方面每节点3套网络内网:以210.XX.XX.XX开始 外网以10.XX.XX.XX开始 ILO卡略

症状:节点使用一段时间后DMESG里会记录nfs: server hp-io0 not responding, still trying(即挂载盘阵U0无响应),类似此类问题。其他并无任何报错,目前采取的措施:更换了网卡程序,拆除绑定,限制网卡传输速率,均没有任何改善。
   
    翻过以前的帖子~看到曾经有这样的问题,大意是大数据量运算时盘阵会掉,和我这个问题同属于磁盘I/O问题,虽然回复中提供了一些解决问题的思路,但按照做完后,都没改善,最要命的是~那帖子的楼主到最后也没有回复说明问题是否解决~~~应用方面软件公司已经来人确定过没有问题,自己已经鼓捣3,4个星期了~ 请求各位高人能指点一下~~~拜谢了~~~

[ 本帖最后由 devotion 于 2007-6-29 15:35 编辑 ]

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
2 [报告]
发表于 2007-07-02 10:54 |只看该作者
这个问题我也遇到过,我感觉和NFS的性能调优以及盘阵的性能有关。最后我的解决办法是把不同的应用分到不同的NFS server上,让不同的NFS server分担负载。这样,NFS server没有响应的机率会变小。如果你有三个盘阵,可以接到三台nfs server上,每个盘阵共享出不同的目录,客户端分别挂载不同的盘阵到本地。

论坛徽章:
0
3 [报告]
发表于 2007-07-02 11:04 |只看该作者
原帖由 好好先生 于 2007-7-2 10:54 发表于 2楼  
这个问题我也遇到过,我感觉和NFS的性能调优以及盘阵的性能有关。最后我的解决办法是把不同的应用分到不同的NFS server上,让不同的NFS server分担负载。这样,NFS server没有响应的机率会变小。如果你有三个盘 ...


类似的问题我也有过。主要发生在大量的小文件的IO上。斑竹说的是一种方法。 你把NFS的协议改为TCP,并且调优一下NFS的IO。这样会影响一定的IO速度,但是可以减少出错的几率。

论坛徽章:
0
4 [报告]
发表于 2007-07-02 17:04 |只看该作者
首先谢谢2位~~采用你们的意见~~~目前见正在实验中~~~有个疑问不得不说一下~: 这个问题到底是系统本身的问题?还是硬件和系统搭配的问题?还是高性能计算集群在存储这方面的缺陷? ~~~ 我来回尝试了很久~ 使用了很多方法尝试解决~ 目前为止`所找我请教过的师傅们提出的问题~都是IO问题`但是竟然没有准确的解决手段~~ 本想考研的时候就去上并行或者集群的~~~ 太受打击了... 2天后测试再回帖 看下效果~~~再次谢过2位~~~虽然把应用分开有孛于原计划~ 但工作在即~也只有先这样尝试了~~~真伤脑筋~~~请继续关注一下~~万谢~~~

[ 本帖最后由 devotion 于 2007-7-2 17:08 编辑 ]

论坛徽章:
0
5 [报告]
发表于 2007-07-04 00:15 |只看该作者
nfs need fine tuned

论坛徽章:
0
6 [报告]
发表于 2007-07-06 16:43 |只看该作者

问题莫名其妙出现好转~~~

按照fdog的做法将NFS的协议换成TCP(默认好象就是TCP吧~?)后来又尝试UDP~ 均无效,而且更改UDP协议后问题出现更加频繁了,只有单个节点交作业的时候 进行磁盘和网络监测, 没有发现明显原因. NFS又请人重新调试过~均表示没有问题,
   无奈之下想到了最小化测试,将单个节点直接与NFS连接进行计算,换句话说就是排除2个因素的干扰,1,其他节点各方面的干扰(不知道这么说合适不合适,同时也请高手出来说明一下,是否存在这种可能性)  2,跳过交换机(排除网络硬件方面的原因所要做的必要措施.)
   结果一个超大作业交上去经过2小时运算,竟然完成了.磁盘IO以及数据网检测都没有问题,一切正常.于是可以说大部分原因是因为交换机和网卡硬件兼容或者其他方面的原因(不知道这样诊断是否武断了些,请高手补充一下还有可能出现的情况.),高高兴兴将网卡和交换机重新连接好,想验证一下自己的想法,却发现问题竟然没了???
   目前无论是各节点分发作业,还是单节点交作业都正常运行中? 因为实验次数太少,目前依然不敢断定问题所在,继续压力测试中
   补充一点,之前硬件连接方面完全没有问题,我是做了再三检查的.有同事提出可能是交换机不稳定...我们配置是华维的交换机,节点则是HP的~ 网卡是集成的,3套网络.
   有高手有不同想法没? 提出来大家研究一下~ 请继续关注~3-4天后再续贴~~~目前ARP表收集中~

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
7 [报告]
发表于 2007-07-06 17:53 |只看该作者
可以改成tcp,还可以调nfs server启动的进程数。。。

BTW:单机测NFS性能不是很好的办法吧?你需要用大量的读写来测试。

论坛徽章:
0
8 [报告]
发表于 2007-07-07 20:54 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
9 [报告]
发表于 2007-07-07 22:18 |只看该作者
好象NFS本身的问题吧?

我记得看过有些人在做 HPC 里都用的是什么 CFS 之类, 没玩过这东东, 也不知道哪些是对的.

跟着学一下.

论坛徽章:
0
10 [报告]
发表于 2007-07-08 12:43 |只看该作者
提高HPC环境的I/O有三个方向可以选择,或者同时进行.

1. 理解hpc环境中I/O的特点,来做针对性的调优.  60%的小型hpc都用nfs来做,呢么就需要优化好nfs了. nfs有很多的调优方法可以做, 我之前写过一个文档在网上,介绍怎样在hpc环境做nfs调优的,不过我自己硬盘里面都找不到了. 搜的到的话可以看看.

2. 如果预算OK的话,可以直接从硬件底层提高I/O性能, 比如soway说的采用速度更高的硬件系统和阵列. 比如支持更深的queue的storage系统等等.

3. 采用分布式存储方案,比如lustre/PVFS2等.
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP