- 论坛徽章:
- 0
|
问题莫名其妙出现好转~~~
按照fdog的做法将NFS的协议换成TCP(默认好象就是TCP吧~?)后来又尝试UDP~ 均无效,而且更改UDP协议后问题出现更加频繁了,只有单个节点交作业的时候 进行磁盘和网络监测, 没有发现明显原因. NFS又请人重新调试过~均表示没有问题,
无奈之下想到了最小化测试,将单个节点直接与NFS连接进行计算,换句话说就是排除2个因素的干扰,1,其他节点各方面的干扰(不知道这么说合适不合适,同时也请高手出来说明一下,是否存在这种可能性) 2,跳过交换机(排除网络硬件方面的原因所要做的必要措施.)
结果一个超大作业交上去经过2小时运算,竟然完成了.磁盘IO以及数据网检测都没有问题,一切正常.于是可以说大部分原因是因为交换机和网卡硬件兼容或者其他方面的原因(不知道这样诊断是否武断了些,请高手补充一下还有可能出现的情况.),高高兴兴将网卡和交换机重新连接好,想验证一下自己的想法,却发现问题竟然没了???
目前无论是各节点分发作业,还是单节点交作业都正常运行中? 因为实验次数太少,目前依然不敢断定问题所在,继续压力测试中
补充一点,之前硬件连接方面完全没有问题,我是做了再三检查的.有同事提出可能是交换机不稳定...我们配置是华维的交换机,节点则是HP的~ 网卡是集成的,3套网络.
有高手有不同想法没? 提出来大家研究一下~ 请继续关注~3-4天后再续贴~~~目前ARP表收集中~ |
|