免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 6646 | 回复: 7
打印 上一主题 下一主题

[小机硬件] P55A主机突然宕机,请大家帮忙分析一下是什么问题! [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-01-21 14:44 |只看该作者 |倒序浏览
环境:两台P55A,DS4700,B16交换机,OS 5.3.05    HA 5.4
故障现象:发生故障时,ORACLE监听服务不响应,IP PING 不通。执行命令报错,HA切换也报错,无奈强关机,HA才切换到另外一台
重起之后才可以执行命令查看
估计故障在11点20左右发生
错误日志如下:
LABEL:          CORE_DUMP
IDENTIFIER:     A63BEB70

Date/Time:       Mon Jan 21 12:10:32 BEIST 2008
Sequence Number: 974
Machine Id:      00041A63D600
Node Id:         xyyb1
Class:           S
Type:            PERM
Resource Name:   SYSPROC         

Description
SOFTWARE PROGRAM ABNORMALLY TERMINATED

Probable Causes
SOFTWARE PROGRAM

User Causes
USER GENERATED SIGNAL

        Recommended Actions
        CORRECT THEN RETRY

Failure Causes
SOFTWARE PROGRAM

        Recommended Actions
        RERUN THE APPLICATION PROGRAM
        IF PROBLEM PERSISTS THEN DO THE FOLLOWING
        CONTACT APPROPRIATE SERVICE REPRESENTATIVE

Detail Data
SIGNAL NUMBER
          11
USER'S PROCESS ID:
                286862
FILE SYSTEM SERIAL NUMBER
           1
INODE NUMBER
           2
PROCESSOR ID
           0
CORE FILE NAME
/core
PROGRAM NAME
dtfile
STACK EXECUTION DISABLED
           0
ADDITIONAL INFORMATION
XtCallCal 74
_XmCallRo 38
_XmCallRo 38
PopupShar 484
Popup 618
_XmCascad 1C0
MenuBarSe 100
_XmDispat 270
BtnDownIn 74
_XmMenuBt 230
HandleAct 174
HandleSim 258
_XtTransl 84
XtDispatc 348
_XtDefaul 378
XtDispatc 140
main 18F8
__start 9C

Symptom Data
REPORTABLE
1
INTERNAL ERROR
1
SYMPTOM CODE
PIDS/5765E6200 LVLS/520 PCSS/SPI2 FLDS/dtfile SIG/11 FLDS/XtCallCal VALU/74 FLDS/main
---------------------------------------------------------------------------
LABEL:          RMCD_INFO_0_ST
IDENTIFIER:     A6DF45AA

Date/Time:       Mon Jan 21 12:07:50 BEIST 2008
Sequence Number: 973
Machine Id:      00041A63D600
Node Id:         xyyb1
Class:           O
Type:            INFO
Resource Name:   RMCdaemon      

Description
The daemon is started.

Probable Causes
The Resource Monitoring and Control daemon has been started.

User Causes
The startsrc -s ctrmc command has been executed or
the rmcctrl -s command has been executed.

        Recommended Actions
        Confirm that the daemon should be started.

Detail Data
DETECTING MODULE
RSCT,rmcd.c,1.51,209                          
ERROR ID
6eKora0Ke/Z5/Qp0.7U32g0...................
REFERENCE CODE
                                          
---------------------------------------------------------------------------
LABEL:          ERRLOG_ON
IDENTIFIER:     9DBCFDEE

Date/Time:       Mon Jan 21 12:07:30 BEIST 2008
Sequence Number: 970
Machine Id:      00041A63D600
Node Id:         localhost
Class:           O
Type:            TEMP
Resource Name:   errdemon        

Description
ERROR LOGGING TURNED ON

Probable Causes
ERRDEMON STARTED AUTOMATICALLY

User Causes
/USR/LIB/ERRDEMON COMMAND

        Recommended Actions
        NONE

---------------------------------------------------------------------------
LABEL:          PCI_RECOVERABLE_ERR
IDENTIFIER:     E142C6D4

Date/Time:       Mon Jan 21 12:00:58 BEIST 2008
Sequence Number: 969
Machine Id:      00041A63D600
Node Id:         xyyb1
Class:           H
Type:            TEMP
Resource Name:   sysplanar0      
Resource Class:  planar
Resource Type:   sysplanar_rspc
Location:        

Description
EEH temporary error for adapter

Probable Causes
SYSTEM I/O BUS
SOFTWARE PROGRAM
ADAPTER

        Recommended Actions
        PERFORM PROBLEM DETERMINATION PROCEDURES

Detail Data
BID
9000 00C7
DEVFUNC
0000 0009
RTAS TOKEN
0000 0036
ERROR CODE
1100 0013
PROBLEM DATA
0644 00E0 0000 02C4 A600 8E00 0000 0000 0000 0000 4942 4D00 5048 0030 0100 A236
2008 0121 0400 3500 0000 0000 0000 0000 4C00 0007 0000 0000 0000 0000 0000 0000
0000 0183 0000 0000 5548 0018 0100 A236 8301 1000 0000 0000 0000 3000 0000 0000
5053 0050 0100 A236 0200 0009 0000 0048 2020 2020 2020 2020 2020 2020 2020 2020
2020 2020 2020 2020 2020 2020 2020 2020 4241 3138 3830 3031 2020 2020 2020 2020
2020 2020 2020 2020 2020 2020 2020 2020 4D54 001C 0100 A236 3931 3333 2D35 3541
3036 3442 3037 4800 0000 0000 4C50 0020 0100 A236 0001 0C01 0000 0000 3036 2D34
4230 3748 0000 0000 0001 0000 5544 01A0 0101 A236 3700 0104 2000 0004 0000 0128
0000 0000 3800 0B04 2000 0004 0000 8000 02B2 1014 0000 8110 0000 0000 0000 8120
0000 8000 0000 8810 0000 0000 0000 8820 2000 1180 0000 8830 0000 0000 0000 8840
0000 0000 0000 8850 0380 0800 0000 8860 0000 0000 0000 8870 0000 0000 0000 8B40
0000 0000 3A01 2004 2101 0004 0000 0000 0188 1014 0000 0008 0604 0F03 0000 0004
0430 0147 0000 001C 2420 F101 0000 1540 F810 3818 0000 1560 2010 C143 0000 1040
5555 55FF 0000 00A4 00C3 B007 0000 00A0 0013 0010 0000 1020 0001 0001 0000 1028
0000 1010 0000 1030 0101 0100 0000 1A04 0004 17C0 0000 1A08 0000 0000 0000 1600
440F 0000 0000 1604 0000 6A30 0000 1608 0000 0000 0000 1610 8F8F C000 0000 1614
0000 6A30 0000 1618 0000 0000 0000 1620 8F0E D000 0000 1624 007A A800 0000 1628
0000 0000 0000 1630 507F 0000 0000 1634 0120 8200 0000 1638 0000 0000 0000 1640
507F 0000 0000 1644 042D 0200 0000 1648 0000 0000 0000 1650 0000 0000 0000 1654
0000 0000 0000 1658 0000 0000 4000 0304 2101 0004 0000 0004 FFFF FFFF 0000 0000
FFFF FFFF 0000 002C FFFF FFFF 5544 0040 0110 A236 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
---------------------------------------------------------------------------

LABEL:          OPMSG
IDENTIFIER:     AA8AB241

Date/Time:       Mon Jan 21 11:21:07 BEIST 2008
Sequence Number: 967
Machine Id:      00041A63D600
Node Id:         xyyb1
Class:           O
Type:            TEMP
Resource Name:   clstrmgrDANGER  

Description
OPERATOR NOTIFICATION

User Causes
ERRLOGGER COMMAND

        Recommended Actions
        REVIEW DETAILED DATA

Detail Data
MESSAGE FROM ERRLOGGER COMMAND
clstrmgr process caught SIGDANGER
---------------------------------------------------------------------------
LABEL:          OPMSG
IDENTIFIER:     AA8AB241

Date/Time:       Sat Jan 19 23:23:42 BEIST 2008
Sequence Number: 966
Machine Id:      00041A63D600
Node Id:         xyyb1
Class:           O
Type:            TEMP
Resource Name:   clstrmgrDANGER  

Description
OPERATOR NOTIFICATION

User Causes
ERRLOGGER COMMAND

        Recommended Actions
        REVIEW DETAILED DATA

Detail Data
MESSAGE FROM ERRLOGGER COMMAND
clstrmgr process caught SIGDANGER
---------------------------------------------------------------------------
LABEL:          TS_LOC_DOWN_ST
IDENTIFIER:     173C787F

Date/Time:       Tue Jan  1 18:29:42 BEIST 2008
Sequence Number: 965
Machine Id:      00041A63D600
Node Id:         xyyb1
Class:           S
Type:            INFO
Resource Name:   topsvcs         

Description
Possible malfunction on local adapter

Probable Causes
Local adapter mal-functioned
Local adapter lost connection to network
Local adapter mis-configured

Failure Causes
Local adapter mal-functioned
Local adapter lost connection to network
Local adapter mis-configured

        Recommended Actions
        Verify adapter configuration
        Verify network connectivity

Detail Data
DETECTING MODULE
rsct,nim_control.C,1.39.1.12,4207            
ERROR ID
6zV5DL.KMVS5/qDo07U32g0...................
REFERENCE CODE
                                          
Adapter interface name
tty1
Adapter offset
           2
Adapter IP address
255.255.0.0
---------------------------------------------------------------------------
LABEL:          TS_NIM_ERROR_STUCK_
IDENTIFIER:     864D2CE3

Date/Time:       Tue Jan  1 18:29:37 BEIST 2008
Sequence Number: 964
Machine Id:      00041A63D600
Node Id:         xyyb1
Class:           S
Type:            PERM
Resource Name:   topsvcs         

Description
NIM thread blocked

Probable Causes
A thread in a Topology Services Network Interface Module (NIM) process
was blocked
Topology Services NIM process cannot get timely access to CPU

User Causes
Excessive memory consumption is causing high memory contention
Excessive disk I/O is causing high memory contention

        Recommended Actions
        Examine I/O and memory activity on the system
        Reduce load on the system
        Tune virtual memory parameters
        Call IBM Service if problem persists

Failure Causes
Excessive virtual memory activity prevents NIM from making progress
Excessive disk I/O traffic is interfering with paging I/O

        Recommended Actions
        Examine I/O and memory activity on the system
        Reduce load on the system
        Tune virtual memory parameters
        Call IBM Service if problem persists

Detail Data
DETECTING MODULE
rsct,nim_control.C,1.39.1.12,5688            
ERROR ID
6XnGH40FMVS5/I9e.7U32g0...................
REFERENCE CODE
                                          
Thread which was blocked
receive thread
Interval in seconds during which process was blocked
          37
Interface name
tty1
---------------------------------------------------------------------------
LABEL:          FCS_ERR2
IDENTIFIER:     825849BF

Date/Time:       Thu Nov 22 10:27:25 BEIST 2007
Sequence Number: 740
Machine Id:      00041A63D600
Node Id:         xyyb1
Class:           H
Type:            TEMP
Resource Name:   fcs2            
Resource Class:  adapter
Resource Type:   df1000fa
Location:        U787B.001.DNWFXGH-P1-C3-T1
VPD:            
        Part Number.................03N7067
        EC Level....................A
        Serial Number...............1B64704EBF
        Manufacturer................001B
        Feature Code/Marketing ID...197E
        FRU Number.................. 03N7067
        Device Specific.(BR)........H0
        Device Specific.(ZM)........3
        Network Address.............10000000C95E3601
        ROS Level and ID............0288193D
        Device Specific.(Z0)........1001206D
        Device Specific.(Z1)........00000000
        Device Specific.(Z2)........00000000
        Device Specific.(Z3)........03000909
        Device Specific.(Z4)........FF801412
        Device Specific.(Z5)........0288193D
        Device Specific.(Z6)........0683193D
        Device Specific.(Z7)........0783193D
        Device Specific.(Z........20000000C95E3601
        Device Specific.(Z9)........TS1.90X13
        Device Specific.(ZA)........T1D1.90X13
        Device Specific.(ZB)........T2D1.90X13

Description
ADAPTER ERROR

Probable Causes
ADAPTER HARDWARE
SYSTEM I/O BUS

Failure Causes
ADAPTER

        Recommended Actions
        PERFORM PROBLEM DETERMINATION PROCEDURES

Detail Data
SENSE DATA
0000 0000 0000 0027 0502 00D2 0000 0000 0001 0000 0106 CE47 0000 0C7A 0000 012C
0000 0001 0000 0005 0000 0000 0000 0000 0000 000E 0000 0000 0000 0001 0000 0156
0000 0000 0608 0000 0400 0010 0000 0000 0000 0000 0000 2710 0000 07D0 0000 076C
0000 0064 0000 000F 0300 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0002 0100 8A00 0200 00D1 0000 0000 0000 0000 0000 0000 0000 0000 0002 0000 0000
0000 0000 0000 0000 636D 4643 0000 0000 F100 0100 1F60 A7B8 F100 0100 1F60 A82C
F100 0100 1F60 A8A0 0000 0000 0004 07B8 0000 0000 0004 082C 0000 0000 0004 08A0



怀疑错误代码详细信息:
AIX Version 5
(C) Copyrights by IBM and by others 1982, 2006.
login: root
root's Password:
*******************************************************************************
*                                                                             *
*                                                                             *
*  Welcome to AIX Version 5.3!                                                *
*                                                                             *
*                                                                             *
*  Please see the README file in /usr/lpp/bos for information pertinent to    *
*  this release of the AIX Operating System.                                  *
*                                                                             *
*                                                                             *
*******************************************************************************
Last unsuccessful login: Mon Nov 26 17:29:52 BEIST 2007 on 172_16_89_127_0 from
172.16.89.127:0
Last login: Mon Jan 21 14:08:07 BEIST 2008 on /dev/pts/1 from 172.16.89.127

# errpt -aj AA8AB241 |pg
---------------------------------------------------------------------------
LABEL:          OPMSG
IDENTIFIER:     AA8AB241

Date/Time:       Mon Jan 21 11:21:07 BEIST 2008
Sequence Number: 967
Machine Id:      00041A63D600
Node Id:         xyyb1
Class:           O
Type:            TEMP
Resource Name:   clstrmgrDANGER

Description
OPERATOR NOTIFICATION

User Causes
ERRLOGGER COMMAND

        Recommended Actions
        REVIEW DETAILED DATA

Detail Data
MESSAGE FROM ERRLOGGER COMMAND
clstrmgr process caught SIGDANGER
---------------------------------------------------------------------------
LABEL:          OPMSG
IDENTIFIER:     AA8AB241

Date/Time:       Mon Jan 21 11:21:07 BEIST 2008
Sequence Number: 967
Machine Id:      00041A63D600
Node Id:         xyyb1
Class:           O
Type:            TEMP
Resource Name:   clstrmgrDANGER

Description
OPERATOR NOTIFICATION


User Causes
ERRLOGGER COMMAND

        Recommended Actions
        REVIEW DETAILED DATA

Detail Data
MESSAGE FROM ERRLOGGER COMMAND
clstrmgr process caught SIGDANGER
---------------------------------------------------------------------------
LABEL:          OPMSG
IDENTIFIER:     AA8AB241

Date/Time:       Sat Jan 19 23:23:42 BEIST 2008
Sequence Number: 966
Machine Id:      00041A63D600
Node Id:         xyyb1
Class:           O
Type:            TEMP
Resource Name:   clstrmgrDANGER

Description
OPERATOR NOTIFICATION

User Causes
ERRLOGGER COMMAND

        Recommended Actions
        REVIEW DETAILED DATA

Detail Data
MESSAGE FROM ERRLOGGER COMMAND
clstrmgr process caught SIGDANGER
同样的故障情况2月前发生过一次

论坛徽章:
0
2 [报告]
发表于 2008-01-21 17:42 |只看该作者
看看哪个core文件是由什么应用产生的(估计是oracle),oracle的日志呢?又问么严重错误吗?

论坛徽章:
0
3 [报告]
发表于 2008-01-21 19:04 |只看该作者

core是dtfile产生的,P5hang的时候应该在前面板做出dump来,这样方便定位

core是dtfile产生的,P5hang的时候应该在前面板做出dump来,这样方便定位

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
4 [报告]
发表于 2008-01-21 22:54 |只看该作者
call 800吧

论坛徽章:
0
5 [报告]
发表于 2008-01-22 09:15 |只看该作者
chinadns的是正解

论坛徽章:
0
6 [报告]
发表于 2008-01-22 12:01 |只看该作者

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
7 [报告]
发表于 2008-01-22 12:23 |只看该作者
我觉得还是先检查这个吧

Probable Causes
A thread in a Topology Services Network Interface Module (NIM) process
was blocked
Topology Services NIM process cannot get timely access to CPU

User Causes
Excessive memory consumption is causing high memory contention
Excessive disk I/O is causing high memory contention

        Recommended Actions
        Examine I/O and memory activity on the system
        Reduce load on the system
        Tune virtual memory parameters
        Call IBM Service if problem persists

Failure Causes
Excessive virtual memory activity prevents NIM from making progress
Excessive disk I/O traffic is interfering with paging I/O

        Recommended Actions
        Examine I/O and memory activity on the system
        Reduce load on the system
        Tune virtual memory parameters
        Call IBM Service if problem persists

论坛徽章:
0
8 [报告]
发表于 2008-02-06 21:38 |只看该作者
SIGDANGER在内存不足时会出现。 检查应用排除内存泄漏先,
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP