免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4755 | 回复: 11
打印 上一主题 下一主题

[故障求助] 求助:登陆CDE时出现错误 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-03-06 15:12 |只看该作者 |倒序浏览
硬件环境:2台P520+DS4300(原FastT600)
软件环境:AIX5.2+HACMP5.1+Oracle9i
主机一:/etc/hosts文件内容:
    127.0.0.1                  loopback              localhost
            192.168.1.103          work_svc             work1
            192.168.1.101          work1_boot         work1
            192.168.1.102          work2_boot         work2
            10.10.10.2                work2_stdy          work2
            10.10.10.1                work1_stdy          work1
主机二:/etc/hosts文件内容
    127.0.0.1                  loopback              localhost
            192.168.1.102          work2_boot         work2
            10.10.10.1                work1_stdy          work1
            192.168.1.103          work_svc
            192.168.1.101          work1_boot         work1
            10.10.10.2                work2_stdy          work2
两台主机都没有/etc/resolv.conf文件.
在主机一启动CDE时非常慢(大约二十分钟)
前段时间,在用root用户登陆后,显示

DT messaging system could not be started.

To correct the problem
1- Chose [ok] to return to the login screen
2- select failsafe session from the login screen's option menu and login.
3- Check to see that the host name is correct in these locations
/etc/hosts
/etc/resolv.conf
For additional information see the DT users guide.

直接关闭后,系统可以正常运行.现在,以上情况没有了,出现了新的错误提示:
_DtMessage Failure

Messaging System Inoperative
To restart:
1) Save all open data files.
2) Logout.
3) Login again.
Note: The current session will not be saved.
When you are ready to begin the restart process click [ok] and proceed to save your files.

无法关闭它.而且发现errpt不更新了.在重启系统后,启用HA后,errpt有如下错误记录:

LABEL :       SRC_SVKO
IDENTIFIER:    BC3BE5A3
.
.
.
Node Id:       work1
Class:          S
Type:           PERM
Resource Name:   SRC

Description
SOFTWARE PROGRAM ERROR

Probable Causes
APPLICATION PROGRAM

Failure Causes
SOFTWARE PROGRAM

       Recommended Actions
      MANUALLY RESTART SUBSYSTEM IF NEEDED

Detail Data
SYMPTOM CODE
           256
SOFTWARE ERROR CODE
          -9017
ERROR CODE
          0
DETECTING MODULE
'srchevn.c'@line:'350'
FAILING MODULE
cllockdES
------------------------------
在网上搜索解决办法,大部分说与启动IP和hostname不匹配有关,在系统启动后,HA启动之前,用如下命令验证:
#hostname
work1
#ifconfig -a
en0:flags=..............
    inet 192.168.1.101  netmask 0xffffff00  broadcast 192.168.1.255
en1:flags=..............
    inet 10.10.10.1     netmask 0xffffff00 broadcast 10.10.10.255
lo0:flags=................
    inet 127.0.0.1       netmask 0xffffff00 broadcast 127.255.255.255
    inet6  ::1/0
    tcp_sendspace  65536  tcp_recvspace 65536
接合开始的/etc/hosts文件内容,似乎问题不在这儿,请各位先进不吝赐教.
谢谢!

论坛徽章:
0
2 [报告]
发表于 2007-03-06 15:22 |只看该作者
改为:

        192.168.1.103          work_svc   
            192.168.1.101          work1_boot     
            192.168.1.102          work2_boot      
            10.10.10.2                work2_stdy  
            10.10.10.1                work1_stdy

论坛徽章:
0
3 [报告]
发表于 2007-03-06 15:22 |只看该作者
给个mail,发点资料给你,不知道能否解决.

论坛徽章:
0
4 [报告]
发表于 2007-03-06 15:29 |只看该作者
谢谢各位,我试试,email:peak.chan@163.com

论坛徽章:
0
5 [报告]
发表于 2007-03-06 15:42 |只看该作者
原帖由 football2006 于 2007-3-6 15:22 发表
改为:

        192.168.1.103          work_svc   
            192.168.1.101          work1_boot     
            192.168.1.102          work2_boot      
            10.10.10.2                ...

现在的环境不允许这样更改,因为所有的客户端应用,全部使用主机名绑定在work1上,所以这个系统的HA还有问题,在主机一离线时,主机二接管服务,这时主机二的IP:192.168.1.103,但hostname为work2,导致所有的客户端程序无法访问服务.在不改变服务主机名(work1)的情况下应该怎么处理这种问题?我自己的想法是:
将两主机的hosts文件修改如下:

主机一:/etc/hosts文件内容:
    127.0.0.1                  loopback              localhost
            192.168.1.103          work_svc             work1
            192.168.1.101          work3_boot         work3
            192.168.1.102          work2_boot         work2
            10.10.10.2                work2_stdy          work2
            10.10.10.1                work3_stdy          work3
主机二:/etc/hosts文件内容
    127.0.0.1                  loopback              localhost
            192.168.1.102          work2_boot         work2
            10.10.10.1                work3_stdy          work3
            192.168.1.103          work_svc              work1
            192.168.1.101          work3_boot         work3
            10.10.10.2                work2_stdy          work2

不知道能不能行,相应的HA应怎样改动?望各位先进指点.谢谢

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
6 [报告]
发表于 2007-03-06 16:37 |只看该作者
把你hostname的名字加到localhost
后面

论坛徽章:
0
7 [报告]
发表于 2007-03-06 16:40 |只看该作者
原帖由 RS9000 于 2007-3-6 16:37 发表
把你hostname的名字加到localhost
后面

这个我也看别人作过,好象是有效,两台主机都加吗?能详细解释一下原理吗?谢谢!

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
8 [报告]
发表于 2007-03-06 21:43 |只看该作者
当使用IPAT的时候
If CDE is started before HACMP is started, it binds to the boot address. When HACMP is
started it swaps the IP address to the service address. If CDE has already been started this
change in the IP address causes it to hang.

论坛徽章:
0
9 [报告]
发表于 2007-03-06 23:34 |只看该作者
原帖由 chinadns 于 2007-3-6 21:43 发表
当使用IPAT的时候
If CDE is started before HACMP is started, it binds to the boot address. When HACMP is
started it swaps the IP address to the service address. If CDE has already been started thi ...


谢谢各位先进如此热情的指教。不好意思,英文水平有限,我理解以上的英文如下:
如果CDE先启动,HACMP后启动,那么CDE绑定到boot IP address。当HACMP启动时,HACMP转换boot IP address到service IP address。如果CDE已经启动,这种 IP address的改变会导致CDE挂起。
不知道理解是否有误。

但是,我遇到的情况,是系统启动后,自动进入CDE登陆状态,进入CDE后,再使用命令
#smitty clstart 手工启动HACMP,在关机时,也是先手工关闭HACMP(#smitty clstop)后,再shutdown系统。这种情况下,CDE的启动时出现错误提示,应该不会有HACMP影响吧。不知道在安装HACMP软件时,对系统的启动文件是否有修改,我再看看,再想想。再次感谢各位!

论坛徽章:
0
10 [报告]
发表于 2007-03-07 00:00 |只看该作者
找到一些关于HACMP安装后,AIX系统被改动的详细情况如下:

为了使 HACMP能运转正常, 在安装、配置 HACMP 后,下列 AIX 系统文件需要手工或已被自动修改了。

/etc/hosts:
用于主机名解析。在群集中需要使用的所有网络接口都要定义在此文件中,群集中的各类事件脚本都是用此文件来进行主机名解析的。
注意:在进行与HACMP相关的操作时,名字解析是不使用DNS 或 NIS机制的。系统管理员根据实际应用的需要,在配置HACMP时对此文件的进行编辑。

/etc/inittab:
在安装HACMP软件时, 会在 /etc/initab 中增加系统引导时自动启动 cluster communication Daemon 的内容,
clcomdES:2nce:startsrc -s clcomdES >dev/console 2>&1
在/etc/inittab 的最后一行增加如下内容:
clinit:a:wait:/bin/touch /usr/es/sbin/cluster/.telinit
#HACMP for AIX These must be the last entry in run level “a” in inittab!

若在HACMP系统中使用 IP地址接管功能,则会在/etc/inittab 中增加,
harc:2:wait:/usr/es/sbin/cluster/etc/harc.net # HACMP network startup
不需要此功能,就无须增加此行
当使用IP地址接管功能时,系统会自动修改/etc/inittab 文件中 的 rc.tcpip 和与inet 相关的条目,将其运行级别从2该为 a, 运行级别为a 的条目只有当telinit -a 命令执行后时才会被处理。

若要在服务器开机后自动启动HACMP ,在/etc/inittab 中会增加
hacmp:2:wait:/usr/sbin/etc/rc.cluster -boot> /dev/console 2>&1 # Bring up Cluster
当引导服务器时,/etc/inittab 文件调用 /usr/es/sbin/cluster/etc/rc.cluster 脚本来启动HACMP
不需要此功能,就无须增加此行.

/etc/rc.net:
在系统引导时 cfgmgr 命令 会调用/etc/rc.net 文件来配置和启动 TCP/IP – 设置主机名、缺省网关和静态路由。 一旦在节点上使用了IP地址接管功能,就会在 /etc/rc.net文件的头部增加下述内容:
# HACMP for AIX
# HACMP for AIX These lines added by HACMP for AIX software
[ "$1" = "-boot" ] && shift || { ifconfig 1o0 127.0.0.1 up; exit 0; }
#HACMP for AIX
# HACMP for AIX
增加此行后,在运行cfgmgr命令时不会重新配置网络接口上的boot 或 service IP 地址了。

/etc/services:
在此文件中定义了服务器中各类网络服务所使用的sockets 的口地址和协议,HACMP各成员所要使用的 口地址和 协议如下:
#clinfo_deadman 6176/tcp
#clm_keepalive 6255/udp
#clm_pts 6200/tcp
#clsmuxpd 6270/tcp
#clm_lkm 6150/tcp
#clm_smux 6175/tcp
#godm 6177/tcp
#topsvcs 6178/udp
#grpsvcs 6179/udp
#emsvcs 6180/udp
#clver 6190/tcp
#clcomd 6191/tcp

/etc/snmpd.conf:
注:在 AIX v5.2中缺省使用的文件是 snmpdv3.conf.
在启动SNMP守护进程时,或当snmpd 接收到 kill –l 信号时 ,会读/etc/snmpd.conf配置文件的内容。 在该文件中定义了 community 的名字、相关的访问权限、view ,接收trap 的通告主机名,日志属性,snmpd指定的配置参数 和snmpd的SMUX配置。 HACMP的安装程序在/etc/snmpd.conf 文件中增加了clsmuxpd 的口令和由 clsmuxpd 管理的HACMP MIB 库。
smux 1.3.6.1.4.1.2.3.1.2.1.5 "clsmuxpd_password" # HACMP clsmuxpd

/etc/snmpd.peers:
/etc/snmpd.peers 文件中配置了 snmpd 的 SMUX peers. 在进行HACMP安装时 文件中增加了如下条目:
clsmuxpd 1.3.6.1.4.1.2.3.1.2.1.5 "clsmuxpd_password" # HACMP clsmuxpd

/etc/syslog.conf:
/etc/syslog.conf文件用于控制 syslogd 后台进程的输出, syslogd 会记录系统中的各类消息。 在进行HACMP安装时, 此文件中增加了关于HACMP的条目,指导HACP将相关的问题输出到特定的文件中。 需要注意的是集群中所有节点上的 /etc/syslog.conf 内容要一致
# example:
# "mail messages, at debug or higher, go to Log file. File must exist."
# "all facilities, at debug and higher, go to console"
# "all facilities, at crit or higher, go to all users"
# mail.debug /usr/spool/mqueue/syslog
# *.debug /dev/console
# *.crit *
# HACMP Critical Messages from HACMP
local0.crit /dev/console
# HACMP Informational Messages from HACMP
local0.info /usr/es/adm/cluster.log
# HACMP Messages from Cluster Scripts
user.notice /usr/es/adm/cluster.log

/etc/trcfmt:
/etc/trcfmt 文件是一个模板文件,用于进行系统trace 和 trcrpt 实用程序中。 在进行HACMP安装时,会在此文件中增加有关跟踪 HACMP 后台进程的格式条目。 可进行跟踪的HACMP后台程序包括:clstrmgr,clinfo 和clsmuxpd.

/var/spool/cron/crontabs/root:
在/var/spool/cron/crontabs/root 文件中包含了基本的系统控制命令。在进行HACMP安装时,此文件中增加了循环使用 HACMP 日志文件名的操作命令

引用自:
http://www-900.ibm.com/cn/support/faqhtmlfaq/1811025I10000.htm
供大家参考。
还是登陆CDE的问题,在登陆CDE后,手工启动HACMP之前,我用telnet boot-IP,成功,启动HA之后,telnet serv-Ip ,成功。证明在CDE后,HA前没有发生IP address转换。所以chinadns兄,所介绍的情况,在我遇到的问题中,没有出现。现在想请问一下
RS9000兄,你所介绍的方法,它的原理是什么,能详细阐述一下吗?让我们这些初学者长长经验。谢谢!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP