Chinaunix

标题: 双机集群,node2节点自动关机,帮忙分析一下! [打印本页]

作者: jwj813    时间: 2008-08-22 09:26
标题: 双机集群,node2节点自动关机,帮忙分析一下!
问题如上,node2节点连续两天晚上都自动关机,errpt错误日志如下:
标号:DUMP_STATS
标识:67145A39

日期/时间:     公元2008年08月20日  星期三  20时41分19秒
序号:           2647
机器标识:       00021F53D600
节点标识:       node1
类:             S
类型:           UNKN
资源名:         SYSDUMP

描述
系统转储

可能原因
意外的系统暂停

用户原因
用户请求系统转储

        推荐的操作
        执行问题确定过程

失败原因
意外的系统暂停

        推荐的操作
        执行问题确定过程

详细数据
转储设备
/dev/lg_dumplv
转储大小
             204079616
TIME
Wed Aug 20 20:36:31 2008
转储类型(1 = 主级,2 = 次级)
           0
转储状态
           0
错误码
           0
转储完整性
Compressed dump - Run dmpfmt with -c flag                                 on dum
p after uncompressing.
文件名

处理器标识
           2
---------------------------------------------------------------------------
标号:MINIDUMP_LOG
标识:F48137AC

日期/时间:     公元2008年08月20日  星期三  20时39分24秒
序号:           2646
机器标识:       00021F53D600
节点标识:       node1
类:             O
类型:           UNKN
资源名:         minidump

描述
COMPRESSED MINIMAL DUMP

可能原因
System dumped. Minimal Dump collected in Non-Volatile Memory.

        推荐的操作
        执行问题确定过程

标号:CORE_DUMP
标识:A63BEB70

日期/时间:     公元2008年08月20日  星期三  20时39分24秒
序号:           2645
机器标识:       00021F53D600
节点标识:       node1
类:             S
类型:           PERM
资源名:         SYSPROC

描述
软件程序异常终止

可能原因
软件程序

用户原因
用户生成的信号

        推荐的操作
        校正,然后重试

失败原因
软件程序

        推荐的操作
        重新运行应用程序
        若问题持续,则执行下列各项
        联系适当的服务代表

详细数据
信号号码
           6
用户进程标识:
                479236
文件系统序号
           9
INODE 号
       71581
处理器标识
          -1
核心文件名
/home/crs/log/node1/cssd/core
程序名
ocssd.bin
STACK EXECUTION DISABLED
           0
附加信息
pthread_k 88
??

症状数据
可报告的
1
内部错误
0
症状码
PCSS/SPI2 FLDS/ocssd.bin SIG/6 FLDS/pthread_k VALU/88
---------------------------------------------------------------------------
标号:ERRLOG_ON
标识:9DBCFDEE

日期/时间:     公元2008年08月20日  星期三  20时42分47秒
序号:           2644
机器标识:       00021F53D600
节点标识:       node1
类:             O
类型:           TEMP
资源名:         errdemon

描述
记录错误日志打开

可能原因
错误守护程序已自动启动

用户原因
/USR/LIB/ERRDEMON 命令

        推荐的操作
        无

---------------------------------------------------------------------------
标号:CORE_DUMP
标识:A63BEB70

日期/时间:     公元2008年08月20日  星期三  20时36分31秒
序号:           2643
机器标识:       00021F53D600
节点标识:       node1
类:             S
类型:           PERM
资源名:         SYSPROC

描述
软件程序异常终止

可能原因
软件程序

用户原因
用户生成的信号

        推荐的操作
        校正,然后重试

失败原因
软件程序

        推荐的操作
        重新运行应用程序
        若问题持续,则执行下列各项
        联系适当的服务代表

详细数据
信号号码
           6
用户进程标识:
                479236
文件系统序号
           9
INODE 号
       71581
处理器标识
          -1
核心文件名
/home/crs/log/node1/cssd/core
程序名
ocssd.bin
STACK EXECUTION DISABLED
           0
附加信息
pthread_k 88
??

症状数据
可报告的
1
内部错误
0
症状码
PCSS/SPI2 FLDS/ocssd.bin SIG/6 FLDS/pthread_k VALU/88
---------------------------------------------------------------------------
标号:FSCSI_ERR4
标识:3074FEB7

日期/时间:     公元2008年08月20日  星期三  20时36分30秒
序号:           2642
机器标识:       00021F53D600
节点标识:       node1
类:             H
类型:           TEMP
资源名:         fscsi1
资源类:         driver
资源类型:       efscsi
位置:           U787B.001.DNWFKCM-P1-C4-T1

描述
适配器错误
可能原因
适配器硬件或电缆
适配器微码
光纤通道交换机或 FC-AL 集线器

失败原因
适配器
电缆和连接
设备

        推荐的操作
        执行问题确定过程
        检查电缆及其连接
        验证设备配置
---------------------------------------------------------------------------
标号:J2_LOG_EIO
标识:C1348779

日期/时间:     公元2008年08月20日  星期三  20时36分29秒
序号:           2641
机器标识:       00021F53D600
节点标识:       node1
类:             O
类型:           INFO
资源名:         SYSJ2

描述
日志 I/O 错误

可能原因
适配器硬件或微码
磁盘驱动器硬件或微码
软件设备驱动程序
存储器电缆松开、有缺陷或未终止

        推荐的操作
        检查电缆及其连接
        安装最新的适配器和驱动器微码
        安装最新的存储设备驱动程序
        若问题依然存在,请联系适当的服务代表

详细数据
JFS2 日志主/次设备号
0037 0002
错误码
0000 0005
BUF 结构 B_FLAGS
000C 0404
块号
0000 F750
---------------------------------------------------------------------------
标号:LVM_IO_FAIL
标识:E86653C3

日期/时间:     公元2008年08月20日  星期三  20时36分29秒
序号:           2640
机器标识:       00021F53D600
节点标识:       node1
类:             H
类型:           PERM
资源名:         LVDD
资源类:         NONE
资源类型:       NONE
位置:

描述
LVM 检测到 I/O 错误

可能原因
电源、驱动器、适配器或电缆故障

        推荐的操作
        对失效设备运行诊断

详细数据
物理卷设备主/次
8000 0019 0000 0023
定义在 sys/errno.h 中的错误码
           5
块号
             618741328
逻辑卷设备主/次
8000 0037 0000 0002
物理缓冲区事务处理时间
                   229
RESIDUAL COUNT
                  4096
NUMBER OF BLOCKS
                  4096
I/O TYPE
USER DATA
检测数据
0000 0000 0004 9C27 0002 1F53 0000 D600 0000 0118 D507 E015 0002 1F53 D506 B699
0000 0000 0000 0000
---------------------------------------------------------------------------
标号:FCP_ARRAY_ERR3
标识:D9770360

日期/时间:     公元2008年08月20日  星期三  20时36分29秒
序号:           2639
机器标识:       00021F53D600
节点标识:       node1
类:             H
类型:           PERM
资源名:         hdisk32
资源类:         disk
资源类型:       array
位置:           U787B.001.DNWFKCM-P1-C4-T1-W200600A0B8227CFB-L1E000000000000

描述
阵列操作错误

可能原因
阵列 DASD 设备
存储设备电缆
EB4F

失败原因
磁盘驱动器
磁盘驱动器电子
存储设备电缆
阵列控制器

        推荐的操作
        执行问题确定过程

---------------------------------------------------------------------------
标号:FCP_ARRAY_ERR3
标识:D9770360

日期/时间:     公元2008年08月20日  星期三  20时36分29秒
序号:           2638
机器标识:       00021F53D600
节点标识:       node1
类:             H
类型:           PERM
资源名:         hdisk19
资源类:         disk
资源类型:       array
位置:           U787B.001.DNWFKCM-P1-C4-T1-W200600A0B8227CFB-L11000000000000

描述
阵列操作错误
可能原因
阵列 DASD 设备
存储设备电缆
EB4F

失败原因
磁盘驱动器
磁盘驱动器电子
存储设备电缆
阵列控制器

        推荐的操作
        执行问题确定过程


node2开机后获取错误如下:
标号:SCAN_ERROR_CHRP
标识:BFE4C025

日期/时间:     公元2008年08月21日  星期四  07时48分49秒
序号:           3017
机器标识:       00021EABD600
节点标识:       node2
类:             H
类型:           PERM
资源名:         sysplanar0
资源类:         planar
资源类型:       sysplanar_rspc
位置:

描述
未确定的错误

失败原因
未确定

        推荐的操作
        运行系统诊断。
诊断分析
Diagnostic Log sequence number: 1575
Resource tested:        sysplanar0
Resource Description:   系统平面
Location:
SRC:                    110000AC
Description:            Power/Cooling subsystem Unrecovered Error, general.
                        Refer to the system service documentation for more
                        information.
Additional Words:       2-003C0001 3-00000000 4-00000000 5-00000000
                        6-00000000 7-00000000 8-00000000 9-00000000
Possible FRUs:
    Priority: L FRU: ACMODUL
/@node2#errpt -a|more
---------------------------------------------------------------------------
标号:RMCD_INFO_0_ST
标识:A6DF45AA

日期/时间:     公元2008年08月22日  星期五  08时16分42秒
序号:           3023
机器标识:       00021EABD600
节点标识:       node2
类:             O
类型:           INFO
资源名:         RMCdaemon

描述
The daemon is started.

可能原因
The Resource Monitoring and Control daemon has been started.

用户原因
The startsrc -s ctrmc command has been executed or
the rmcctrl -s command has been executed.

        推荐的操作
        Confirm that the daemon should be started.

详细数据
检测模块
RSCT,rmcd.c,1.51,209
错误标识
6eKora0ORTf6/AK80v7..8....................
参考码


是node2电源出问题了吗?????
作者: sunx_hlg    时间: 2008-08-22 09:45
什么主机?
1:查看这个:/home/crs/log/node1/cssd/core
2:LVDD,一个硬盘的错误
3:U787B.001.DNWFKCM-P1-C4应该是块光纤卡吧?连接的什么存储?看看是不是有问题!
4:查看主机微码
作者: jwj813    时间: 2008-08-22 09:57
标题: 回复 #2 sunx_hlg 的帖子
IBM,9133-55A小型机,DS4300存储,存储上看不到错误信息,应该是小型机出了故障
平台固件级别: SF240_298
固件版本: IBM,SF240_298
作者: myciciy    时间: 2008-08-22 10:07
ha的日志呢
作者: jwj813    时间: 2008-08-22 10:31
标题: 回复 #4 myciciy 的帖子
RAC+RAW+WebSphere实现集群,没有用ha
作者: jimmytao    时间: 2008-08-22 10:46
是不是生成dump了,直接给IBM分析吧
作者: 我老婆黑社会    时间: 2008-08-22 10:48
我觉得有RAC在里面,一切皆有可能,权限太大了




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2