Chinaunix
标题:
HA异常,如何干掉这2个进程.
[打印本页]
作者:
wushanyink
时间:
2009-10-15 15:49
标题:
HA异常,如何干掉这2个进程.
使用Graceful方式停掉cluster后,状态异常.应用停了,vg也varyoff了,业务IP也release了,但节点状态还是up..
Cluster: boss_cluster (1251577123)
Thu Oct 15 09:40:48 2009
State: UP Nodes: 2
SubState: UNSTABLE
Node: NPDTV1 State: UP
Interface: NPDTV1_boot (1) Address: 192.168.10.101
State: DOWN
Interface: NPDTV1_stb (1) Address: 192.168.11.101
State: DOWN
Interface: npdtv1 (0) Address: 0.0.0.0
State: DOWN
Interface: NPDTV1_svcip (1) Address: 172.16.10.103
State: DOWN
Resource Group: app_res State: Error
Node: NPDTV2 State: UP
Interface: NPDTV2_boot (1) Address: 192.168.10.102
State: UP
Interface: NPDTV2_stb (1) Address: 192.168.11.102
State: UP
Interface: npdtv2 (0) Address: 0.0.0.0
State: UP
Interface: NPDTV2_svcip (1) Address: 172.16.10.104
State: UP
Resource Group: app_res State: Unmanaged
Resource Group: db_res State: On line
ps -ef |cluster发现进程如下:
# ps -ef |grep cluster
root 463098 180458 0 16:21:40 - 0:37 /usr/es/sbin/cluster/clstrmgr
root 467172 180458 0 16:21:39 - 0:12 /usr/es/sbin/cluster/clcomd -d
root 516162 180458 0 17:01:15 - 0:00 haemd HACMP 1 boss_cluster SECNOSUPPORT
root 544874 692224 1 09:45:44 - 0:00 /bin/ksh /usr/es/sbin/cluster/events/config_too_long 360 TE_FAIL_NODE
root 557278 1 0 09:59:38 - 0:00 /bin/ksh /usr/es/sbin/cluster/utilities/clstop -N -g
root 626786 180458 0 17:01:16 - 0:00 harmad -t HACMP -n boss_cluster
root 692224 463098 0 09:45:44 - 0:00 /usr/es/sbin/cluster/clstrmgr
root 745582 401616 0 10:02:55 pts/1 0:00 grep cluster
root 762108 1 0 09:39:44 - 0:00 /bin/ksh /usr/es/sbin/cluster/utilities/clstop -N -g
重新启动cluster..报错:
Verifying Cluster Configuration Prior to Starting Cluster Services.
WARNING: Node(s): NPDTV1 requested to start cluster services.
These nodes are already running cluster services and will not be started.
现在cluster是停也停不了,启动也启动不了..请问下大家,如何结束harmad -t HACMP -n boss_cluster 和harmad -t HACMP -n boss_cluster这个进程.
作者:
meilixueshan
时间:
2009-10-15 21:16
重启机子应该能解决一时之急
不过还是看看hacmp.out的错误信息先
作者:
chalylau
时间:
2009-10-16 08:44
反正应用也停了,最快速的办法就是重启机器。
HA可能是有问题了,然后再慢慢查原因吧。
作者:
wushanyink
时间:
2009-10-16 10:51
呵呵,重启的确能解决问题.不过我想不用重新启动就解决最好了..
关于停双机失败,我仔细检查了下,是应用的起停脚本有问题,停应用失败,导致双机停止失败,挂在那里了.
重新检查修改了应用的起停脚本,2边检查确认一致后,双机切换和停止都正常..
clstat - HACMP Cluster Status Monitor
-------------------------------------
Cluster: boss_cluster (1251577123)
Fri Oct 16 10:36:34 CDT 2009
State: UP Nodes: 2
SubState: STABLE
Node: NPDTV1 State: DOWN
Interface: NPDTV1_boot (1) Address: 192.168.10.101
State: DOWN
Interface: NPDTV1_stb (1) Address: 192.168.11.101
State: DOWN
Interface: npdtv1 (0) Address: 0.0.0.0
State: DOWN
Interface: NPDTV1_svcip (1) Address: 172.16.10.103
State: DOWN
Node: NPDTV2 State: UP
Interface: NPDTV2_boot (1) Address: 192.168.10.102
State: UP
Interface: NPDTV2_stb (1) Address: 192.168.11.102
State: UP
Interface: npdtv2 (0) Address: 0.0.0.0
State: UP
Interface: NPDTV2_svcip (1) Address: 172.16.10.104
State: UP
Resource Group: db_res State: On line
这里,写下自己的一点心得,希望对大家有点小小的帮助.
1 在配置双机后,双机同步时必须要做的,并且不能有报错,这样可以保证双机配置的一致性.避免在以后的切换中出现问题.
2 关于数据库和应用的启停脚本,2边一定要保持一致.并且启停脚本要进行验证,确认直接在shell下运行脚本的时候能够启动和停止数据库和应用.如果直接运行脚本就报错的话,那么在双机切换过程中,调用脚本肯定也会报错,导致双机切换失败.另外,别忘了给脚本加上可执行权限.
3 使用clstop停止双机的时候,节点最后的状态应该是down的,比如Node: NPDTV1 State: DOWN .如果资源组和网卡接口都是down状态,而节点状态为up,那么肯定有问题,需要检查HACMP.OUT日志查出问题原因.其实大部分原因应该还是双机的配置问题或者起停脚本的问题.
4 配置完双机后,一定要模拟不同的情形进行切换测试,比如halt机器,拔网卡,停应用,停数据库等等保证系统在以后出现这些问题的时候能够正常切换.
作者:
RS9000
时间:
2009-10-16 10:55
如果graceful没有正常停下来HA的进程,可以用force听呀,然后找到问题,解决问题
作者:
wushanyink
时间:
2009-10-16 11:01
原帖由
RS9000
于 2009-10-16 10:55 发表
如果graceful没有正常停下来HA的进程,可以用force听呀,然后找到问题,解决问题
2种方式停好像都有问题的...
最后检查HACMP.OUT发现是应用的启停脚本有问题..
作者:
meilixueshan
时间:
2009-10-16 13:49
有时config_too_long?
欢迎光临 Chinaunix (http://bbs.chinaunix.net/)
Powered by Discuz! X3.2