Chinaunix

标题: 求助:双机系统故障?带盘阵 [打印本页]

作者: lsting    时间: 2006-03-14 17:16
标题: 求助:双机系统故障?带盘阵
问题描述:
        硬件环境: 服务器HP ML150G2,rose HA,带盘阵,双心跳(网卡心跳、COM口心跳)
        操作系统:sco openserver 5.0.6
        数据库:sybase,sybase库放在盘阵,并为裸设备
        故障现象:双机系统运行大约40个小时之后,出现网络堵塞,各终端及另一台(备机)服务器都与工作主机没法进行网络连接,出现网络中断现象,而各终端能与另一台(备机)服务器能PING通。。双机软件主程序运行后得到的运行状态为:(网络)心跳socket为error状态;工作主机还是处于ACTIVE,备机服务器还是处于STANDBY;两台服务器的NET0,NET1(这两个NET为服务器的网卡标示)为OK。
      请教各位高手是什么原因会造成这种故障?谢谢!
      急啊!
作者: szdft    时间: 2006-03-14 23:03
标题: 从你反应的情况来看,应该是主工作机的网络有问题
从你反应的情况来看,应该是主工作机的网络有问题(摘:出现网络堵塞,各终端及另一台(备机)服务器都与工作主机没法进行网络连接)。只要主、备机上的任何一个用作心跳的网络出现通讯或是网卡故障问题,心跳socket都会为error状态。而此时的rose双机软件无法侦测主、备机的状态,不会有任何的切换操作,所以双机的运行状态方式不变(即:工作主机还是处于ACTIVE,备机服务器还是处于STANDBY)。对对于这种情况,应该从以下几方面去考虑:
1,判断是否因主机的网卡或网络通读有问题,可以将主、备机互调工作状态来进行测试,如果备机服务器用作主工作状态时也会有种问题,那就只有一种原因,即rose软件的问题
2,建议你多加一个心跳机制,比如再加一个RS232心跳,这样可心跳可以避免因网络问而出现心跳侦测停止,同是也是一种心跳配置的冗余机制。
3,可以先进行简单的双机资源服务测试,即先不管理数据库及应用程序,只是做一个简单的虚拟IP做双机运行的测试,然后逐步增加你需要的管理的资源,这样的做法可以帮你断点分析出是因为IP,共享磁盘,还是数据库等应用程序引起的双机运行不正常.l
作者: lsting    时间: 2006-03-15 09:52
谢谢SZDFT的回复和提出的建议
对于出现我贴子的故障后,szdft说“可以将主、备机互调工作状态来进行测试”,我已经做了一个简单的测试,可以将“主机”手工切换到“备机”,并能成功,结果为主机(未切换前为备机)能正常提供服务及运行,但是备机(未切换为主机)的网络还是处于堵塞状态,各终端和另一台服务器对它还是不能进行网络连接(简单测试用PING)。还有一个现象为:出现故障后,主备机切换后,工作40个小时后,也会出现贴子一样的问题。
如若是ROSE HA的问题,请问szdft使用过的ROSE HA版本,因为我这里使用过ROSE HA4.0.12/4.0.16
作者: lsting    时间: 2006-03-15 11:01
其实我们做的双机系统有两个心跳,一个为socket,一个为RS232,只是socket为error状态,而双机软件主程序的主界面上对NET1,NET2的侦测状态为OK
作者: noise    时间: 2006-03-15 13:58
如果切换后,问题仍然存在,更换一下两台服务器的网卡试试吧。

NET0和NET1中有心跳吧,NET应该是外网的,如果有心跳就不应该添加进来。
作者: beyondsky    时间: 2006-03-16 09:41
原帖由 noise 于 2006-3-15 13:58 发表
如果切换后,问题仍然存在,更换一下两台服务器的网卡试试吧。

NET0和NET1中有心跳吧,NET应该是外网的,如果有心跳就不应该添加进来。

调试的时候得注意下
因为更换网卡可能导致ROSE的hostid发生更改
如果已经是生产系统,应做好备用机后再来调试
个人感觉此类原因应该是系统和网络所导致
而且也可能会由网络中出现病毒引起
可以在网络中抓网络报文来分析下出现故障时主机的具体网络通信情况
作者: lsting    时间: 2006-03-16 17:02
原帖由 beyondsky 于 2006-3-16 09:41 发表

调试的时候得注意下
因为更换网卡可能导致ROSE的hostid发生更改
如果已经是生产系统,应做好备用机后再来调试
个人感觉此类原因应该是系统和网络所导致
而且也可能会由网络中出现病毒引起
可以在网络中抓 ...

首先,谢谢楼上两位的回复和提出的测试方法
双机系统中使用的两台服务器是硬件相同配置,所以互换网卡没有意义,但如果是病毒原因引起的故障,故障时间间隔不会那么巧合,故障时间都是双机运行大约40个小时,就会出现相同的故障现象。
我不知楼上两位“其它网友”是否使用过ROSE HA双机软件,在sco openserver5.0.6和sybase环境下,若有可否可以把ROSE HA的脚本配置情况和sco openserver5.0.6的系统参数方面的数据共享一下,让我参考一下,先在此谢过了!




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2