Chinaunix

标题: 双机热备的备份服务器无法正常启动(急) [打印本页]

作者: lywh    时间: 2006-11-21 09:05
标题: 双机热备的备份服务器无法正常启动(急)
请教:
主机和备份机:IBM小型机
主机IP:192.168.0.9/192.168.0.10
备份机IP:192.168.0.11/192.168.0.12
操作系统:AIX 5.1
数据库:sybase 12.5

故障:
双机热备的备份服务器正常启动时,IP地址应由192.168.0.11自动切换到192.168.0.12,现在该服务器的IP地址始终停留在192.168.0.11,不会自动切换至192.168.0.12。通过XManager从终端登陆时,显示附件中的错误提示,且终端控制台界面中的菜单项均无法正常显示,重新启动服务器故障依旧,请问是何故?该如何解决?急盼回复,谢谢!

错误.rar

31.19 KB, 下载次数: 117

错误提示


作者: RS9000    时间: 2006-11-21 09:45
检查你的/etc/hosts文件和/etc/resolv.conf文件,如果你没有使用DNS,把resolv.conf文件
作者: lywh    时间: 2006-11-21 10:07
标题: 回复 2楼 RS9000 的帖子
检查/etc/hosts文件和/etc/resolv.conf文件,是检查主服务器端的还是备份服务器端的呢?由于备份服务器无法登陆成功,我只检查了主服务器端的/etc/hosts文件(文件内容如下),在主服务器端未发现/etc/resolv.conf文件。

主服务器端的hosts文件
# @(#)47        1.1  src/bos/usr/sbin/netstart/hosts, cmdnet, bos510 7/24/91 10:00:46
#
# COMPONENT_NAME: TCPIP hosts
#
# FUNCTIONS: loopback
#
# ORIGINS: 26  27
#
# (C) COPYRIGHT International Business Machines Corp. 1985, 1989
# All Rights Reserved
# Licensed Materials - Property of IBM
#
# US Government Users Restricted Rights - Use, duplication or
# disclosure restricted by GSA ADP Schedule Contract with IBM Corp.
#
#  /etc/hosts
#
# This file contains the hostnames and their address for hosts in the
# network.  This file is used to resolve a hostname into an Internet
# address.  
#
# At minimum, this file must contain the name and address for each
# device defined for TCP in your /etc/net file.  It may also contain
# entries for well-known (reserved) names such as timeserver
# and printserver as well as any other host name and address.
#
# The format of this file is:
# Internet Address        Hostname        # Comments
# Items are separated by any number of blanks and/or tabs.  A '#'
# indicates the beginning of a comment; characters up to the end of the
# line are not interpreted by routines which search this file.  Blank
# lines are allowed.

# Internet Address        Hostname        # Comments
# 192.9.200.1             net0sample        # ethernet name/address
# 128.100.0.1                token0sample        # token ring name/address
# 10.2.0.2                x25sample        # x.25 name/address
127.0.0.1        loopback localhost  erpa         # loopback (lo0) name/address
192.168.0.9  erpaboot        erpa
192.168.0.10 erpasvr       
10.10.10.1   erpastb        erpa
192.168.0.11 erpbboot  
192.168.0.12 erpbsvr
10.10.10.2   erpbstb

我们的主服务器名为erpa,备份服务器名为erpb,请问最后的192.168.0.11 erpbboot  和10.10.10.2   erpbstb 后是否缺少了备份服务器名称啊?请帮忙看一下该文件有何异常,应该如何解决呢?

另外能否告知这属于双机热备配置的问题还是sybase数据库配置的问题呢?
作者: hi_niu    时间: 2006-11-21 10:22
标题: 回复 3楼 lywh 的帖子
楼主用的是 IPAT via aliasing 还是 IPAT via replacement? 用的是HACMP什么版本啊。

我学的是HACMP5.3,看你用的不是 aliasing 方式。
作者: hi_niu    时间: 2006-11-21 10:24
错误信息显示是网络配置问题,还没到启动HACMP那步呢。
作者: lywh    时间: 2006-11-21 10:31
标题: 回复 4楼 hi_niu 的帖子
我们用的是HACMP4.5,请问这是属于双机热备的问题吗?
作者: lywh    时间: 2006-11-21 10:33
标题: 回复 5楼 hi_niu 的帖子
“网络配置”问题太笼统了,能否详细说明一下具体应该检查哪些方面呢?
作者: hi_niu    时间: 2006-11-21 10:55
从你的抓屏输出看,我在单机情况下遇到过这种启动问题。AIX启动的时候,如果发现系统配置的IP地址段和目前的IP地址段匹配不上,网络不通,就会出现你那样的屏幕输出。记得可以选什么failed login session 类似的东西登录,然后把IP配通。

至于你用的HACMP4.5,因我一接触就是5.3,差别不少,不敢妄言。
作者: RS9000    时间: 2006-11-21 11:01
没说清楚??
作者: pli    时间: 2006-11-21 11:45
双机热备英文是什么? 是HACMP还是有什么的特别意思? , 要是备份服务器正常启动时, 那时HACMP起动了吗? 还有HACMP是怎样调置?

192.168.0.11 erpbboot  - 开机时 Boot IP Address
192.168.0.12 erpbsvr - HACMP Resource Group IP

如果HACMP没开的话,192.168.0.12 是不会自动出现的, 那时只可以用192.168.0.11
作者: lywh    时间: 2006-11-21 13:38
标题: 回复 9楼 RS9000 的帖子
我是新手,所以对您的意思不太清楚,能否说的具体一些呢?
作者: pli    时间: 2006-11-21 14:05
你这个问题以前出现过吗?

当你Reboot后, 你有没有起动 HACMP ?
作者: lywh    时间: 2006-11-21 14:06
标题: 回复 12楼 pli 的帖子
以前没有出现过这个问题,另外想请问一下HACMP如何启动?
作者: pli    时间: 2006-11-21 14:15
/usr/sbin/cluster/clstat -a -r 2
看看有没有cluster 的information

要启动HACMP, 简单的方法是 smitty hacmp , 找HACMP 的 start service
作者: lywh    时间: 2006-11-21 14:35
标题: 回复 14楼 pli 的帖子
试了一下,备份服务器的HACMP启动失败了。
作者: pli    时间: 2006-11-21 14:40
oh .. 什么原因?
可以看

/tmp/hacmp.out
作者: RS9000    时间: 2006-11-21 16:02
如果有这个/etc/resolv.conf文件,并且步为空,而且你确定没有使用DNS
cp /etc/resolv.conf /etc/resolv.conf.bk
rm /etc/resolv.conf
作者: chinadns    时间: 2006-11-21 21:31
与双机有关系么 ?
照9000得话做
最好把 hosts文件里加上 192.168.0.11 erpbboot   erpb

启动失败 报什么错 ?
ha45 不可能是新系统啊  最近做了什么修改啊

[ 本帖最后由 chinadns 于 2006-11-21 21:32 编辑 ]
作者: redprint    时间: 2006-11-22 01:15
楼主给的信息太少了,什么叫备机启动时?
作者: xiaobudian    时间: 2006-11-22 10:42
这个错肯定是网络配置问题。检查/etc/hosts文件和ip地址,主机名的关系。
作者: mjxyx    时间: 2006-11-22 10:59
能否把备机启动失败后的,HACMP。OUT内容贴出来?这系统估计不是刚配的吧?
作者: 天涯明月刀    时间: 2006-11-22 13:42
Display HACMP Configuration  贴出来
然后网络配置贴出来
然后start service 的结果和提示贴出来
View Current State 贴出来


不能让大家猜阿,猜来猜去没准没开机呢(有点夸张)
作者: mengqs    时间: 2006-11-22 20:13
从你的截图看,现在跟HA没任何关系,是因为你的网络配置文件配置的不对,如/etc/hosts /etc/resolv.conf
文件有问题,导致你通过Xmanager登陆主机出错!
作者: mengqs    时间: 2006-11-22 20:15
我有个问题,service地址和boot地址可以在一个子网下么?好象不可以吧!
作者: chinadns    时间: 2006-11-22 22:22
当然可以在一个子网
不再一个子网也行
这取决于你的网络规划 ,然后ha针对以上分别适用 IPAT by classic或by alias
作者: dujun1977    时间: 2006-11-26 13:39
标题: 你在配置ha的时候同步和校验都成功了吗?
你在配置ha的时候同步和校验都成功了吗?

再就是在ha启动的时候查看这个文件,/tmp/hacmp.out
tailf -f  /tmp/hacmp.out
如果不成功应该会有报错信息的。
作者: lywh    时间: 2006-12-26 08:42
标题: 回复 26楼 dujun1977 的帖子
我想在备份机上新建一个文本文件,把主机上的 /.rhosts 和 /etc/hosts 文件里的内容敲进去,可是现在备份机上只能看到一个dtterm窗口,请问在该窗口下如何用命令新建一个文本文件。
作者: litian0061    时间: 2006-12-27 00:48
把hacmp.out信息贴出来看看吧,呵呵,HACMP4。5版本是boot和service是可以是同一网段的,因为他的IP模式为地址替换模式,不是新版本中的叠加上去的IP,建议把etc/hosts下的文件备份一下,重新写一下,好象有点乱:)
#### DO MODIFY HACMP CLUSTER HOST SETTING ####
134.107.8.161    backupsvc_svc  
134.107.8.162    backupsvc1_par
134.107.8.164    backupsvc2_par
3.3.1.1          backupsvc1_boot1
3.3.1.2          backupsvc2_boot1
3.3.2.1          backupsvc1_boot2
3.3.2.2          backupsvc2_boot2
#### DO MODIFY HACMP CLUSTER HOST SETTING ####


这样比较清爽:)
作者: lywh    时间: 2006-12-28 13:58
标题: 回复 27楼 lywh 的帖子
我用VI命令查看了备机上的/.rhosts文件,该文件内容和主机上的内容一样,查看/etc/hosts内容时出现了“在/var/tmp/EX13776文件系统上没有足够的空间”的提示,我将 /var 文件系统的空间扩了一下,然后启动了备机上的HACMP,结果备机立即切换至 192.168.0.12 了,而且也可正常登录了,但是主机却DOWN机了。之后我们把主机重新启动,但是它只能启动至 192.168.0.9 状态,却不会自动切换至 192.168.0.10 状态了,尝试在主机上手动启动HACMP,提示成功,但是主机立即又DOWN机了。现在我们必须先将备机关机,待主机启动至 192.168.0.9 状态后,手动将主机上的HACMP启动,主机才能切换至 192.168.0.10 状态,请问这是何故?为什么主机不会自动切换了,而且只要备机打开,主机一启动HACMP就自动DOWN机呢?盼回复,谢谢!
作者: RS9000    时间: 2006-12-28 14:27
楼主的问题还没有解决呀!!

你提供的信息太少了,别人都已经告诉你了,你也没有提供!
你最开始提供的错误和HACMP没有关系,是ip地址解析的问题。
你楼上说的太笼统了。而且你的HACMP的拓扑、资源组结构也不清楚,不过一般切HA发生宕机,很大的可能是HACMP补丁的问题。
作者: jimmytao    时间: 2006-12-30 11:35
配置HA,要注意ha的补丁,ha所需要的文件包都打全,配置文件要符合标准,如果有问题,你删除所配置的再重新配一遍,看看有什么问题。应该是你配置的问题。
作者: xiaobudian    时间: 2006-12-30 13:01
如果HACMP启动造成的宕机还有可能是网络配置的问题。好好检查网络。




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2