免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 6722 | 回复: 6
打印 上一主题 下一主题

[HACMP集群] 双机集群,node2节点自动关机,帮忙分析一下! [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-08-22 09:26 |只看该作者 |倒序浏览
问题如上,node2节点连续两天晚上都自动关机,errpt错误日志如下:
标号:DUMP_STATS
标识:67145A39

日期/时间:     公元2008年08月20日  星期三  20时41分19秒
序号:           2647
机器标识:       00021F53D600
节点标识:       node1
类:             S
类型:           UNKN
资源名:         SYSDUMP

描述
系统转储

可能原因
意外的系统暂停

用户原因
用户请求系统转储

        推荐的操作
        执行问题确定过程

失败原因
意外的系统暂停

        推荐的操作
        执行问题确定过程

详细数据
转储设备
/dev/lg_dumplv
转储大小
             204079616
TIME
Wed Aug 20 20:36:31 2008
转储类型(1 = 主级,2 = 次级)
           0
转储状态
           0
错误码
           0
转储完整性
Compressed dump - Run dmpfmt with -c flag                                 on dum
p after uncompressing.
文件名

处理器标识
           2
---------------------------------------------------------------------------
标号:MINIDUMP_LOG
标识:F48137AC

日期/时间:     公元2008年08月20日  星期三  20时39分24秒
序号:           2646
机器标识:       00021F53D600
节点标识:       node1
类:             O
类型:           UNKN
资源名:         minidump

描述
COMPRESSED MINIMAL DUMP

可能原因
System dumped. Minimal Dump collected in Non-Volatile Memory.

        推荐的操作
        执行问题确定过程

标号:CORE_DUMP
标识:A63BEB70

日期/时间:     公元2008年08月20日  星期三  20时39分24秒
序号:           2645
机器标识:       00021F53D600
节点标识:       node1
类:             S
类型:           PERM
资源名:         SYSPROC

描述
软件程序异常终止

可能原因
软件程序

用户原因
用户生成的信号

        推荐的操作
        校正,然后重试

失败原因
软件程序

        推荐的操作
        重新运行应用程序
        若问题持续,则执行下列各项
        联系适当的服务代表

详细数据
信号号码
           6
用户进程标识:
                479236
文件系统序号
           9
INODE 号
       71581
处理器标识
          -1
核心文件名
/home/crs/log/node1/cssd/core
程序名
ocssd.bin
STACK EXECUTION DISABLED
           0
附加信息
pthread_k 88
??

症状数据
可报告的
1
内部错误
0
症状码
PCSS/SPI2 FLDS/ocssd.bin SIG/6 FLDS/pthread_k VALU/88
---------------------------------------------------------------------------
标号:ERRLOG_ON
标识:9DBCFDEE

日期/时间:     公元2008年08月20日  星期三  20时42分47秒
序号:           2644
机器标识:       00021F53D600
节点标识:       node1
类:             O
类型:           TEMP
资源名:         errdemon

描述
记录错误日志打开

可能原因
错误守护程序已自动启动

用户原因
/USR/LIB/ERRDEMON 命令

        推荐的操作
        无

---------------------------------------------------------------------------
标号:CORE_DUMP
标识:A63BEB70

日期/时间:     公元2008年08月20日  星期三  20时36分31秒
序号:           2643
机器标识:       00021F53D600
节点标识:       node1
类:             S
类型:           PERM
资源名:         SYSPROC

描述
软件程序异常终止

可能原因
软件程序

用户原因
用户生成的信号

        推荐的操作
        校正,然后重试

失败原因
软件程序

        推荐的操作
        重新运行应用程序
        若问题持续,则执行下列各项
        联系适当的服务代表

详细数据
信号号码
           6
用户进程标识:
                479236
文件系统序号
           9
INODE 号
       71581
处理器标识
          -1
核心文件名
/home/crs/log/node1/cssd/core
程序名
ocssd.bin
STACK EXECUTION DISABLED
           0
附加信息
pthread_k 88
??

症状数据
可报告的
1
内部错误
0
症状码
PCSS/SPI2 FLDS/ocssd.bin SIG/6 FLDS/pthread_k VALU/88
---------------------------------------------------------------------------
标号:FSCSI_ERR4
标识:3074FEB7

日期/时间:     公元2008年08月20日  星期三  20时36分30秒
序号:           2642
机器标识:       00021F53D600
节点标识:       node1
类:             H
类型:           TEMP
资源名:         fscsi1
资源类:         driver
资源类型:       efscsi
位置:           U787B.001.DNWFKCM-P1-C4-T1

描述
适配器错误
可能原因
适配器硬件或电缆
适配器微码
光纤通道交换机或 FC-AL 集线器

失败原因
适配器
电缆和连接
设备

        推荐的操作
        执行问题确定过程
        检查电缆及其连接
        验证设备配置
---------------------------------------------------------------------------
标号:J2_LOG_EIO
标识:C1348779

日期/时间:     公元2008年08月20日  星期三  20时36分29秒
序号:           2641
机器标识:       00021F53D600
节点标识:       node1
类:             O
类型:           INFO
资源名:         SYSJ2

描述
日志 I/O 错误

可能原因
适配器硬件或微码
磁盘驱动器硬件或微码
软件设备驱动程序
存储器电缆松开、有缺陷或未终止

        推荐的操作
        检查电缆及其连接
        安装最新的适配器和驱动器微码
        安装最新的存储设备驱动程序
        若问题依然存在,请联系适当的服务代表

详细数据
JFS2 日志主/次设备号
0037 0002
错误码
0000 0005
BUF 结构 B_FLAGS
000C 0404
块号
0000 F750
---------------------------------------------------------------------------
标号:LVM_IO_FAIL
标识:E86653C3

日期/时间:     公元2008年08月20日  星期三  20时36分29秒
序号:           2640
机器标识:       00021F53D600
节点标识:       node1
类:             H
类型:           PERM
资源名:         LVDD
资源类:         NONE
资源类型:       NONE
位置:

描述
LVM 检测到 I/O 错误

可能原因
电源、驱动器、适配器或电缆故障

        推荐的操作
        对失效设备运行诊断

详细数据
物理卷设备主/次
8000 0019 0000 0023
定义在 sys/errno.h 中的错误码
           5
块号
             618741328
逻辑卷设备主/次
8000 0037 0000 0002
物理缓冲区事务处理时间
                   229
RESIDUAL COUNT
                  4096
NUMBER OF BLOCKS
                  4096
I/O TYPE
USER DATA
检测数据
0000 0000 0004 9C27 0002 1F53 0000 D600 0000 0118 D507 E015 0002 1F53 D506 B699
0000 0000 0000 0000
---------------------------------------------------------------------------
标号:FCP_ARRAY_ERR3
标识:D9770360

日期/时间:     公元2008年08月20日  星期三  20时36分29秒
序号:           2639
机器标识:       00021F53D600
节点标识:       node1
类:             H
类型:           PERM
资源名:         hdisk32
资源类:         disk
资源类型:       array
位置:           U787B.001.DNWFKCM-P1-C4-T1-W200600A0B8227CFB-L1E000000000000

描述
阵列操作错误

可能原因
阵列 DASD 设备
存储设备电缆
EB4F

失败原因
磁盘驱动器
磁盘驱动器电子
存储设备电缆
阵列控制器

        推荐的操作
        执行问题确定过程

---------------------------------------------------------------------------
标号:FCP_ARRAY_ERR3
标识:D9770360

日期/时间:     公元2008年08月20日  星期三  20时36分29秒
序号:           2638
机器标识:       00021F53D600
节点标识:       node1
类:             H
类型:           PERM
资源名:         hdisk19
资源类:         disk
资源类型:       array
位置:           U787B.001.DNWFKCM-P1-C4-T1-W200600A0B8227CFB-L11000000000000

描述
阵列操作错误
可能原因
阵列 DASD 设备
存储设备电缆
EB4F

失败原因
磁盘驱动器
磁盘驱动器电子
存储设备电缆
阵列控制器

        推荐的操作
        执行问题确定过程


node2开机后获取错误如下:
标号:SCAN_ERROR_CHRP
标识:BFE4C025

日期/时间:     公元2008年08月21日  星期四  07时48分49秒
序号:           3017
机器标识:       00021EABD600
节点标识:       node2
类:             H
类型:           PERM
资源名:         sysplanar0
资源类:         planar
资源类型:       sysplanar_rspc
位置:

描述
未确定的错误

失败原因
未确定

        推荐的操作
        运行系统诊断。
诊断分析
Diagnostic Log sequence number: 1575
Resource tested:        sysplanar0
Resource Description:   系统平面
Location:
SRC:                    110000AC
Description:            Power/Cooling subsystem Unrecovered Error, general.
                        Refer to the system service documentation for more
                        information.
Additional Words:       2-003C0001 3-00000000 4-00000000 5-00000000
                        6-00000000 7-00000000 8-00000000 9-00000000
Possible FRUs:
    Priority: L FRU: ACMODUL
/@node2#errpt -a|more
---------------------------------------------------------------------------
标号:RMCD_INFO_0_ST
标识:A6DF45AA

日期/时间:     公元2008年08月22日  星期五  08时16分42秒
序号:           3023
机器标识:       00021EABD600
节点标识:       node2
类:             O
类型:           INFO
资源名:         RMCdaemon

描述
The daemon is started.

可能原因
The Resource Monitoring and Control daemon has been started.

用户原因
The startsrc -s ctrmc command has been executed or
the rmcctrl -s command has been executed.

        推荐的操作
        Confirm that the daemon should be started.

详细数据
检测模块
RSCT,rmcd.c,1.51,209
错误标识
6eKora0ORTf6/AK80v7..8....................
参考码


是node2电源出问题了吗?????

论坛徽章:
0
2 [报告]
发表于 2008-08-22 09:45 |只看该作者
什么主机?
1:查看这个:/home/crs/log/node1/cssd/core
2:LVDD,一个硬盘的错误
3:U787B.001.DNWFKCM-P1-C4应该是块光纤卡吧?连接的什么存储?看看是不是有问题!
4:查看主机微码

论坛徽章:
0
3 [报告]
发表于 2008-08-22 09:57 |只看该作者

回复 #2 sunx_hlg 的帖子

IBM,9133-55A小型机,DS4300存储,存储上看不到错误信息,应该是小型机出了故障
平台固件级别: SF240_298
固件版本: IBM,SF240_298

论坛徽章:
0
4 [报告]
发表于 2008-08-22 10:07 |只看该作者
ha的日志呢

论坛徽章:
0
5 [报告]
发表于 2008-08-22 10:31 |只看该作者

回复 #4 myciciy 的帖子

RAC+RAW+WebSphere实现集群,没有用ha

论坛徽章:
0
6 [报告]
发表于 2008-08-22 10:46 |只看该作者
是不是生成dump了,直接给IBM分析吧

论坛徽章:
0
7 [报告]
发表于 2008-08-22 10:48 |只看该作者
我觉得有RAC在里面,一切皆有可能,权限太大了
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP