Chinaunix

标题: rx6600 HP-UX_OS_CRITICAL_SHUTDOWN(已补充所有log) [打印本页]

作者: alpha4000    时间: 2012-12-29 00:38
标题: rx6600 HP-UX_OS_CRITICAL_SHUTDOWN(已补充所有log)
本帖最后由 alpha4000 于 2013-01-02 23:03 编辑

rx6600,v11.31,系统上周才重启过,uptime显示为7天,今天eventlog出现如下错误(请忽略主机名、ip等信息):

>------------ Event Monitoring Service Event Notification ------------<

Notification Time: Fri Dec 28 20:59:46 2012

node1_1 sent Event Monitor notification information:

/system/events/ipmi_fpl/ipmi_fpl is >= 1.
Its current value is INFORMATION(1).

Event data from monitor:

Event Time..........: Fri Dec 28 20:59:46 2012
Severity............: INFORMATION
Monitor.............: fpl_em
Event #.............: 4552               
System..............: node1_1

Summary:
     INIT initiated

Description of Error:

This is the equivalent of a TOC event in the PA RISC Architecture. On IPF
systems, this event is called an INIT.
This event can be triggered by the "tc" command from the MP, or from the button
labeled "TOC" or "Transfer of Control" on the Management card or bezel of the
system. There are also other causes of an INIT generated by software.
Data: Local CPU Number

Probable Cause / Recommended Action:

Software has requested an INIT or the INIT button has been pressed.
No action is required.

Additional Event Data:
     System IP Address...: 100.xx.xx.xx
     System IP Address...: 10.xx.xx.xx
     System IP Address...: 127.0.0.1
     Event Id............: 0x50dd97c200000000
     Monitor Version.....: A.01.00
     Event Class.........: System
     Client Configuration File...........:
     /var/stm/config/tools/monitor/default_fpl_em.clcfg
     Client Configuration File Version...: A.01.00
          Qualification criteria met.
               Number of events..: 1
     Associated OS error log entry id(s):
          None
     Additional System Data:
          System Model Number.............: ia64 hp server rx6600
          EMS Version.....................: A.04.20.31.02
          STM Version.....................: D.04.00
          System Serial Number............: SGHxxxxx
     Latest information on this event:
          http://docs.hp.com/hpux/content/hardware/ems/fpl_em.htm#4552

v-v-v-v-v-v-v-v-v-v-v-v-v    D  E  T  A  I  L  S    v-v-v-v-v-v-v-v-v-v-v-v-v


IPMI event hex: 0xf480007900e00360 000000000000000000
Time Stamp: Thu Dec 15 05:37:09 2011
Event keyword: INIT_INITIATED
Alert level name: Fatal
Reporting vers: 1
Data field type: Major change in system state
Decoded data field: System State       =   0(Boot Start)
State Change Event =   0(At BIB)
LED Command Valid  =   0(LED state is not updated)
LED Run            =   0(off (default))
LED Attention      =   0(reserved)
LED Stopped        =   0(off (default))
Reporting entity ID: 0 ( Cab 0 Cell 0 CPU 0 )
Reporting entity Full Name: System Firmware
IPMI Event ID : 121 (0x79)


>---------- End Event Monitoring Service Event Notification ----------<

>------------ Event Monitoring Service Event Notification ------------<

Notification Time: Fri Dec 28 20:59:46 2012

node1_1 sent Event Monitor notification information:

/system/events/ipmi_fpl/ipmi_fpl is >= 1.
Its current value is CRITICAL(5).

Event data from monitor:

Event Time..........: Fri Dec 28 20:59:46 2012
Severity............: CRITICAL
Monitor.............: fpl_em
Event #.............: 6772               
System..............: node1_1

Summary:
     HP-UX OS shutdown due to an MCA or INIT

Description of Error:

An OS is shutting down due to an MCA (Machine Check Abort) or INIT.

Probable Cause / Recommended Action:

An MCA or INIT occurred.
Analyze the dump & logs for cause. If necessary contact HP Support for
assistance.

Additional Event Data:
     System IP Address...: 100.xx.xx.xx
     System IP Address...: 10.xx.xx.xx
     System IP Address...: 127.0.0.1
     Event Id............: 0x50dd97c200000002
     Monitor Version.....: A.01.00
     Event Class.........: System
     Client Configuration File...........:
     /var/stm/config/tools/monitor/default_fpl_em.clcfg
     Client Configuration File Version...: A.01.00
          Qualification criteria met.
               Number of events..: 1
     Associated OS error log entry id(s):
          None
     Additional System Data:
          System Model Number.............: ia64 hp server rx6600
          EMS Version.....................: A.04.20.31.02
          STM Version.....................: D.04.00
          System Serial Number............: SGHxxxxxxx
     Latest information on this event:
          http://docs.hp.com/hpux/content/hardware/ems/fpl_em.htm#6772

v-v-v-v-v-v-v-v-v-v-v-v-v    D  E  T  A  I  L  S    v-v-v-v-v-v-v-v-v-v-v-v-v


IPMI event hex: 0xf4801c3100e00410 0x000000000019100c
Time Stamp: Thu Dec 15 05:37:12 2011
Event keyword: HP-UX_OS_CRITICAL_SHUTDOWN
Alert level name: Fatal
Reporting vers:

Data field type: Major change in system state
Decoded data field: System State       =  12(State Change)
State Change Event =  25(Reserved)
LED Command Valid  =   0(LED state is not updated)
LED Run            =   0(off (default))
LED Attention      =   0(reserved)
LED Stopped        =   0(off (default))
Reporting entity ID: 0 ( Cab 0 Cell 0 CPU 0 )
Reporting entity Full Name: HP-UX Kernel
IPMI Event ID : 7217 (0x1c31)

>---------- End Event Monitoring Service Event Notification ----------<

实在无从着手,是不是需要安装什么补丁啊?
作者: lbseraph    时间: 2012-12-30 04:58
MCA是因为硬件问题导致的,这个要分析具体mca dump文件(可以看下/var/tombstones目录下有没有相应的mca文件,有的话找HP分析一下吧),这种时候和补丁无关;
INIT一般是软件或人为触发的,人为的话当然得看是谁做的了,软件的话得看是哪个软件触发的(一般在集群里面有这种情况,查到原因后再根据需要是否要打补丁)。
作者: alpha4000    时间: 2012-12-30 13:22
本帖最后由 alpha4000 于 2012-12-30 15:48 编辑
lbseraph 发表于 2012-12-30 04:58
MCA是因为硬件问题导致的,这个要分析具体mca dump文件(可以看下/var/tombstones目录下有没有相应的mca文件 ...


谢谢
/var/tombstones下是空的
/var/adm/crash下也没有最近的log
syslog中只有我帖子上发的那个信息
pkg的log中未见异常

请问版主还能从哪块下手啊?
我还准备去mp上抓下event log
作者: uriyliu    时间: 2012-12-30 16:19
你确认这是syslog.log中的文字? syslog中不会有"Probable Cause / Recommended Action"之类的信息。你贴出来的信息应该是个提示命令的输出吧,看一下产生的时间。可能你的机器还没有重启过,因此相关的mca dump还没有拷贝到OS中, 在硬件日志中找找线索看。
作者: alpha4000    时间: 2012-12-30 18:35
uriyliu 发表于 2012-12-30 16:19
你确认这是syslog.log中的文字? syslog中不会有"Probable Cause / Recommended Action"之类的信息。你贴出 ...


是按照syslog中提示的命令的输出
产生的时间是28日晚21时,而最近一次的人工重启(做切换测试的)是在21号,之后主机未重启
你的意思,想看到dump还需要重启主机?
作者: lbseraph    时间: 2012-12-31 08:05
syslog对应这种命令的输出基本是EMS的,可以在文件/var/opt/resmon/log/event.log里面看到。

21日人工重启是怎么重启的?使用命令reboot或shutdown?还是MP里面做tc?或直接按了面板上的INIT按钮(应该不是后两者,因为那样的话/var/adm/crash会有相应的dump文件)?

如果/var/tombstones下没mca文件的话,要查看mca文件的话只能在EFI Shell使用命令“errdump mca”调出来查看(要核对时间戳,可能看到的时间和OS看到的不一样,如果排查了上面的情况,这种时候可能是OS的问题了)。

目前还是查看一下MP的SEL先,对比一下OS这个时间点下是否有相应的日志能确认到原因。
作者: alpha4000    时间: 2012-12-31 15:02
lbseraph 发表于 2012-12-31 08:05
syslog对应这种命令的输出基本是EMS的,可以在文件/var/opt/resmon/log/event.log里面看到。

21日人工重 ...


谢谢
21日重启的时候是做mcsg的切换测试,是reboot的
我帖子中描述的这个错误是28日20:59出现的

最新的情况:
1、我到现场查看了设备,无告警
2、mp口看了sel,只有到21日那天的log
3、crash、mca的log都没有产生
4、pkg的log也没有什么异常

现在业务运行正常,我准备再观察观察了
作者: lbseraph    时间: 2012-12-31 16:15
回复 7# alpha4000

你1#描述的信息应该不全吧?一般下面还有对应这个事件实际的时间戳的~可以的话,最好把/var/opt/resmon/log/event.log中完整的信息全部贴出来看眼。
作者: haizdl    时间: 2013-01-01 14:37
8008107000
作者: alpha4000    时间: 2013-01-02 23:08
lbseraph 发表于 2012-12-31 16:15
回复 7# alpha4000

你1#描述的信息应该不全吧?一般下面还有对应这个事件实际的时间戳的~可以的话,最好 ...


你好版主,我把28日产生的2个log贴上来了
麻烦你帮忙再分析分析
作者: lbseraph    时间: 2013-01-03 07:11
第一个event已经告诉你了,是12月15日做了INIT导致的。Details里面有时间~

IPMI event hex: 0xf480007900e00360 000000000000000000
Time Stamp: Thu Dec 15 05:37:09 2011
Event keyword: INIT_INITIATED

作者: alpha4000    时间: 2013-01-03 13:56
lbseraph 发表于 2013-01-03 07:11
第一个event已经告诉你了,是12月15日做了INIT导致的。Details里面有时间~


看了syslog及mp的sel都没看到12月15日对应时间有什么记录
版主所说的init操作,是执行init 6类似这种操作吗?
作者: lbseraph    时间: 2013-01-03 20:26
MP里面应该有下面这个event吧?这种就是MP里面同步到系统event.log里面的~
IPMI event hex: 0xf480007900e00360 000000000000000000
Time Stamp: Thu Dec 15 05:37:09 2011
Event keyword: INIT_INITIATED


你说的init 6是Linux里面的重启吧?不一样的,这里IA64的INIT动作相当于PA-RISC中的TOC动作,如果做这个动作的话,系统会强制重启并同时把内存的内容dump下来保存到本地硬盘(HP-UX对应的默认目录就是/var/adm/crash)供分析的。
作者: alpha4000    时间: 2013-01-04 10:24
lbseraph 发表于 2013-01-03 20:26
MP里面应该有下面这个event吧?这种就是MP里面同步到系统event.log里面的~


谢谢版主

根据你的建议
1、我现在在mp的sel里面,12月份里面第一个信息就是我们那晚(21日凌晨,时间稍有误差,但是还没差过一天)做切换演练的,这里是手工reboot的
Log Entry 65: 20 Dec 2012 16:07:47
Alert Level 2: Informational
Keyword: HP-UX_OS_NORMAL_SHUTDOWN
HP-UX OS normal shutdown.
Logged by: HP-UX Kernel 0
Data: Major change in system state - State Change
0x54801C3000E005F0 00000000001A100C

Log Entry 67: 20 Dec 2012 16:08:08
Alert Level 2: Informational
Keyword: CPU_START_BOOT
CPU starting boot
Logged by: Redundant w/ an E0 code;
Sensor: System Boot Initiated
Data1: transition to Running
0xC150D337E8020620 FFFF000A001D0300

2、现在crash下面确实是空的

现在业务无异常,我准备继续观察看看了

多谢版主的耐心回复
作者: lbseraph    时间: 2013-01-04 16:13
MP里面的SEL没有更老的日志了?在之前是否更改过MP的时间?
作者: alpha4000    时间: 2013-01-04 16:29
lbseraph 发表于 2013-01-04 16:13
MP里面的SEL没有更老的日志了?在之前是否更改过MP的时间?


时间我没有改过
版主我把mp的sel日志上传了 2012-12-31__mp.rar (2.47 KB, 下载次数: 9)
作者: lbseraph    时间: 2013-01-05 16:50
奇怪,确实没有~还有个地方可以看眼,目录/var/stm/logs/os下面有fpl.log.xxx这些文件,不过要用命令或工具才能看的~
作者: alpha4000    时间: 2013-01-07 00:41
lbseraph 发表于 2013-01-05 16:50
奇怪,确实没有~还有个地方可以看眼,目录/var/stm/logs/os下面有fpl.log.xxx这些文件,不过要用命令或工具 ...


我用getsysinfo抓了,看见有几个fpl.log.xx.old的文件
看不了,暂时就这样了
作者: lbseraph    时间: 2013-01-07 13:53
那个可以找HP看一下的,如果你想看的话~他们有工具看那种日志。




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2