Chinaunix

标题: 我倒,HA居然stop不下来 [打印本页]

作者: augusta    时间: 2003-03-17 13:06
标题: 我倒,HA居然stop不下来
<Test01>;/ #lssrc -g cluster
Subsystem         Group            PID     Status
clstrmgr         cluster          16804   stopping

一直是stopping,/tmp/hacmp.out也不写,vg也不下来,service地址也不改回去,总之一点都没动,还没碰到过这种怪问题呢。

我可以kill掉这个PID伐?
作者: 老农    时间: 2003-03-17 13:17
标题: 我倒,HA居然stop不下来
有个FORCE shutdown啊,不过不释放资源。
配置得有问题。配置得不好还不如单机可靠呢:(
作者: augusta    时间: 2003-03-17 13:42
标题: 我倒,HA居然stop不下来
哦,我force下来了。
不过很奇怪,我现在2台单机起cluster,一台似乎没问题,另外一台,起倒是起来了。
lssrc -g cluster,看到都active,但不写/tmp/hacmp.out
然后我当它是成功起来了,
在主机上Test01,smit clstop,然后选takeover
主机lssrc -g cluster,状态一直为stopping,vg和service地址都不动,/tmp/hacmp.out也一点东西都没有,
备机/tmp/hacmp.out也没动

我不明我什么地方配错了伐,备机在屏幕上报一个错,说是clstrmgr 16XXX这个进程一直mwirte to jim 出错,不明是什么东西。

我拓扑和resouse同步都OK了,没问题阿。

请指教

多谢多谢
要不什么包少装了?? stop的包没装??
多谢多谢
作者: augusta    时间: 2003-03-17 13:56
标题: 我倒,HA居然stop不下来

config_too_long[79] /bin/echo WARNING: Cluster Test has been running event 'node
_up Test02' for 1260 seconds. Please check event status.
config_too_long[79] 1>; /dev/console
config_too_long[80] sleep 30

备机的/tmp/hacmp.out一直报以上这条消息,每30S一次
作者: 老农    时间: 2003-03-17 15:27
标题: 我倒,HA居然stop不下来
备机不正常。你不开主机,单开备机起HACMP试试。
作者: zk882    时间: 2003-03-17 15:31
标题: 我倒,HA居然stop不下来
检查拓扑,service ip和standby ip是不是在同一个子网?
作者: augusta    时间: 2003-03-17 15:31
标题: 我倒,HA居然stop不下来
我也觉得备机不正常
我单开备机的结果是
哦,我的HA 是cascading的
单开备机的结果是,备机没有service地址,没有varyon的vg,除了rootvg
好象没发生过cluster start一样,但lssrc -g cluster里的status却是active
作者: augusta    时间: 2003-03-17 15:34
标题: 我倒,HA居然stop不下来
备机/tmp/cm.log是这样的
jil_open_heartbeat_path: A file descriptor does not refer to an open file.
mwrite: A file descriptor does not refer to an open file.
mwrite: A file descriptor does not refer to an open file.
mwrite: A file descriptor does not refer to an open file.
mwrite: A file descriptor does not refer to an open file.
mwrite: A file descriptor does not refer to an open file.
short mwrite (0/29)

主机的/tmp/cm.log是这样的
JIM ERROR (Test,pid=16546) hbInit failure on remote adapter 10.5.26.102
JIM ERROR (Test,pid=16546) hbInit failure on remote adapter 192.168.1.2
JIM ERROR (Test,pid=16546) hbInit failure on remote adapter 10.5.26.102
JIM ERROR (Test,pid=16546) hbInit failure on remote adapter 192.168.1.2
JIM ERROR (Test,pid=16546) hbInit failure on remote adapter 10.5.26.102
JIM ERROR (Test,pid=16546) hbInit failure on remote adapter 192.168.1.2
JIM ERROR (Test,pid=16546) hbInit failure on remote adapter 10.5.26.102
JIM ERROR (Test,pid=16546) hbInit failure on remote adapter 192.168.1.2


我测试过心跳线没有问题,ha里我也加了2个心跳线的tty,想不出有什么问题。
作者: augusta    时间: 2003-03-18 11:50
标题: 我倒,HA居然stop不下来
我把resouce 改成rotating就可以,但是cascading就是不行,郁闷。
作者: johnsons    时间: 2003-03-18 11:58
标题: 我倒,HA居然stop不下来
clverify做一下试一下。
作者: augusta    时间: 2003-03-18 12:17
标题: 我倒,HA居然stop不下来
做过了,没问题
作者: 老农    时间: 2003-03-18 12:26
标题: 我倒,HA居然stop不下来
你的switch是不是划了vlan什么的,换个hub试试?
作者: augusta    时间: 2003-03-18 13:12
标题: 我倒,HA居然stop不下来
[quote]原帖由 "老农"]你的switch是不是划了vlan什么的,换个hub试试?[/quote 发表:


?看起来很高深,不过不明白为什么,可是我rotating是可以的呀,我也没有让它switch硬件地址阿。我测试机房里就一个hub
作者: strock    时间: 2003-03-27 09:39
标题: 我倒,HA居然stop不下来
这个问题最后的解决办法是什么?我怎么也刚碰到了?刚down一个最新的包,想升级,不知道可以不?
作者: strock    时间: 2003-03-27 09:44
标题: 我倒,HA居然stop不下来
有好的解决办法吗?
作者: jxlh    时间: 2003-03-27 10:15
标题: 我倒,HA居然stop不下来
我也遇到过这个问题,并解决了.

配置上是没有问题的,但主要的问题是你的心跳连接线的问题.你可以看看你的心跳是否通.




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2