免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3387 | 回复: 3
打印 上一主题 下一主题

[故障求助] 遇到的ha问题,请大家帮忙看一下 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-05-09 14:26 |只看该作者 |倒序浏览
每天都会有这样的报错,报错信息为:
LABEL: SRC_RSTRT
IDENTIFIER: BA431EB7

Date/Time: Tue Dec 5 04:25:21 BEIST 2006
Sequence Number: 1360
Machine Id: 00C11C5F4C00
Node Id: m201_host
Class: S
Type: PERM
Resource Name: SRC

Description
SOFTWARE PROGRAM ERROR

Probable Causes
APPLICATION PROGRAM

Failure Causes
SOFTWARE PROGRAM

Recommended Actions
VERIFY SUBSYSTEM RESTARTED AUTOMATICALLY

Detail Data
SYMPTOM CODE
7936
SOFTWARE ERROR CODE
-9035
ERROR CODE
0
DETECTING MODULE
'srchevn.c'@line:'217'
FAILING MODULE
emaixos
----------------------------------------------------------------------
LABEL: HA002_ER
IDENTIFIER: 12081DC6

Date/Time: Tue Dec 5 04:25:20 BEIST 2006
Sequence Number: 1359
Machine Id: 00C11C5F4C00
Node Id: m201_host
Class: S
Type: PERM
Resource Name: harmad

Description
SOFTWARE PROGRAM ERROR

Probable Causes
SUBSYSTEM

Failure Causes
SUBSYSTEM

Recommended Actions
REPORT DETAILED DATA
CONTACT APPROPRIATE SERVICE REPRESENTATIVE

Detail Data
DETECTING MODULE
LPP=PSSP,Fn=aixos_spmiVGLV.c,SID=1.6,L#=2085,
DIAGNOSTIC EXPLANATION
aixos_get_system_VGLVs(): 2522-614 An assertion has stopped program execution: (svg_obj_cnt > 0) value1: 0 value2: 0.

系统版本为:5300-03
ha版本为5.3

重新设置过SPMI共享内存 可是依然有报错

论坛徽章:
1
操作系统版块每日发帖之星
日期:2015-11-09 06:20:00
2 [报告]
发表于 2007-05-09 17:47 |只看该作者
emsvcsctrl 是一个启动事件管理子系统的控制脚本。事件管理是一个 RSTC 的分布式子系统,它为 IBM® RS/6000® 服务器提供一组高可用性服务。此命令通过匹配关于系统资源的状态信息和有关客户机程序关注的资源条件的信息来创建事件。客户机程序会用事件检测和恢复系统故障,这样加强了系统可用性。emsvcsctrl 控制脚本控制事件管理子系统的操作。此子系统在系统资源控制器的控制下,同时属于一个叫 emsvcs 的子系统组。每个子系统都关联着一个守护程序。emsvcsctrl 还控制 AIX® 资源监视器子系统的操作。此子系统在系统资源控制器的控制下,同时属于一个叫 emsvcs 的子系统组。每一个子系统都和一个守护程序相关联。
事件管理的实例和 AIX 资源监视器子系统在 HACMP/ES 集群的每个节点上执行。从操作的角度看,事件管理子系统组的组织如下:
子系统
事件管理
子系统组
emsvcs
SRC 子系统
emsvcs 子系统和 haemd 守护程序相关联。
emaixos
emaixos 和 harmad 守护程序相关联。
守护程序
haemd 守护程序提供事件管理服务。harmad 守护程序是 AIX 操作系统资源的资源监视器。
emsvcsctrl 脚本通常不在命令行下执行。通常在系统安装期间被 HACMP/ES 启动脚本命令调用。

以前遇到过,建议把HA重新启动一下,问题即可得到解决.

论坛徽章:
0
3 [报告]
发表于 2007-05-09 22:53 |只看该作者
重启过ha,依然报错。请问这样的报错对ha会有什么样的影响?如果只是用ha做的oracle的rac会不会受影响?

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
4 [报告]
发表于 2007-05-10 20:14 |只看该作者
引起这种报错可能有两种原因 :

1. 补丁不够 。

请客户观察自己的aix ML level . 如果 bos.rte.lvm 小于5.3.0.30 , 那么就要升级
aix 5.3 最新的补丁 , ML 03 . 或者最少升级bos.rte.lvm 到5.3.0.30 或者更高。

2.SPMI 共享内存被其他程序调用。

harmad code 调用 AIX spmi 功能 。

Haramd 是由 haemaixos subsystem 调用的。haemaixos subsystem 是由inittab 启动的。因此可以说 haramd 是第一个调用Spmi 库的进程 Harmad 是一个资源监控进程 ,他利用SPMI监控着aix 操作系统 . 当其他进程锁住共享内存,导致harmad 不能正常调用SPMI 时,就会报ha002_err。

解决方法 :

Stop HACMP
smitty clstop> graceful

ps -ef |grep haemaixos

stopsrc -s haemaixos.(partition name)


Steps to recycle System Performance Measurement Interface (SPMI):

1. Stop all the processes which use the SPMI shared library (xmservd,
filtd, xmperf, 3dmon, ptxrlog, harmd, topas, any PSSP process)

2. Run ipcs -m command and check for any segment "KEY" that begins
'0x78', as listed below:
T ID KEY
m 0 0xc76283cc
m 1 0x78002323

If there are any such segments,make sure the process which uses those
shared segments is stopped, then run:
ipcrm -m
to clear up those shared memory segments.

3. Run slibclean

4. Now restart topas, or Performance Toolbox.(if applicable)

5. startsrc -s haemaixos.(partion name) for each partition

6. start hacmp
smitty clstart
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP