免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 7477 | 回复: 18
打印 上一主题 下一主题

[求助] rx6600 HP-UX_OS_CRITICAL_SHUTDOWN(已补充所有log) [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-12-29 00:38 |只看该作者 |倒序浏览
本帖最后由 alpha4000 于 2013-01-02 23:03 编辑

rx6600,v11.31,系统上周才重启过,uptime显示为7天,今天eventlog出现如下错误(请忽略主机名、ip等信息):

>------------ Event Monitoring Service Event Notification ------------<

Notification Time: Fri Dec 28 20:59:46 2012

node1_1 sent Event Monitor notification information:

/system/events/ipmi_fpl/ipmi_fpl is >= 1.
Its current value is INFORMATION(1).

Event data from monitor:

Event Time..........: Fri Dec 28 20:59:46 2012
Severity............: INFORMATION
Monitor.............: fpl_em
Event #.............: 4552               
System..............: node1_1

Summary:
     INIT initiated

Description of Error:

This is the equivalent of a TOC event in the PA RISC Architecture. On IPF
systems, this event is called an INIT.
This event can be triggered by the "tc" command from the MP, or from the button
labeled "TOC" or "Transfer of Control" on the Management card or bezel of the
system. There are also other causes of an INIT generated by software.
Data: Local CPU Number

Probable Cause / Recommended Action:

Software has requested an INIT or the INIT button has been pressed.
No action is required.

Additional Event Data:
     System IP Address...: 100.xx.xx.xx
     System IP Address...: 10.xx.xx.xx
     System IP Address...: 127.0.0.1
     Event Id............: 0x50dd97c200000000
     Monitor Version.....: A.01.00
     Event Class.........: System
     Client Configuration File...........:
     /var/stm/config/tools/monitor/default_fpl_em.clcfg
     Client Configuration File Version...: A.01.00
          Qualification criteria met.
               Number of events..: 1
     Associated OS error log entry id(s):
          None
     Additional System Data:
          System Model Number.............: ia64 hp server rx6600
          EMS Version.....................: A.04.20.31.02
          STM Version.....................: D.04.00
          System Serial Number............: SGHxxxxx
     Latest information on this event:
          http://docs.hp.com/hpux/content/hardware/ems/fpl_em.htm#4552

v-v-v-v-v-v-v-v-v-v-v-v-v    D  E  T  A  I  L  S    v-v-v-v-v-v-v-v-v-v-v-v-v


IPMI event hex: 0xf480007900e00360 000000000000000000
Time Stamp: Thu Dec 15 05:37:09 2011
Event keyword: INIT_INITIATED
Alert level name: Fatal
Reporting vers: 1
Data field type: Major change in system state
Decoded data field: System State       =   0(Boot Start)
State Change Event =   0(At BIB)
LED Command Valid  =   0(LED state is not updated)
LED Run            =   0(off (default))
LED Attention      =   0(reserved)
LED Stopped        =   0(off (default))
Reporting entity ID: 0 ( Cab 0 Cell 0 CPU 0 )
Reporting entity Full Name: System Firmware
IPMI Event ID : 121 (0x79)


>---------- End Event Monitoring Service Event Notification ----------<

>------------ Event Monitoring Service Event Notification ------------<

Notification Time: Fri Dec 28 20:59:46 2012

node1_1 sent Event Monitor notification information:

/system/events/ipmi_fpl/ipmi_fpl is >= 1.
Its current value is CRITICAL(5).

Event data from monitor:

Event Time..........: Fri Dec 28 20:59:46 2012
Severity............: CRITICAL
Monitor.............: fpl_em
Event #.............: 6772               
System..............: node1_1

Summary:
     HP-UX OS shutdown due to an MCA or INIT

Description of Error:

An OS is shutting down due to an MCA (Machine Check Abort) or INIT.

Probable Cause / Recommended Action:

An MCA or INIT occurred.
Analyze the dump & logs for cause. If necessary contact HP Support for
assistance.

Additional Event Data:
     System IP Address...: 100.xx.xx.xx
     System IP Address...: 10.xx.xx.xx
     System IP Address...: 127.0.0.1
     Event Id............: 0x50dd97c200000002
     Monitor Version.....: A.01.00
     Event Class.........: System
     Client Configuration File...........:
     /var/stm/config/tools/monitor/default_fpl_em.clcfg
     Client Configuration File Version...: A.01.00
          Qualification criteria met.
               Number of events..: 1
     Associated OS error log entry id(s):
          None
     Additional System Data:
          System Model Number.............: ia64 hp server rx6600
          EMS Version.....................: A.04.20.31.02
          STM Version.....................: D.04.00
          System Serial Number............: SGHxxxxxxx
     Latest information on this event:
          http://docs.hp.com/hpux/content/hardware/ems/fpl_em.htm#6772

v-v-v-v-v-v-v-v-v-v-v-v-v    D  E  T  A  I  L  S    v-v-v-v-v-v-v-v-v-v-v-v-v


IPMI event hex: 0xf4801c3100e00410 0x000000000019100c
Time Stamp: Thu Dec 15 05:37:12 2011
Event keyword: HP-UX_OS_CRITICAL_SHUTDOWN
Alert level name: Fatal
Reporting vers:

Data field type: Major change in system state
Decoded data field: System State       =  12(State Change)
State Change Event =  25(Reserved)
LED Command Valid  =   0(LED state is not updated)
LED Run            =   0(off (default))
LED Attention      =   0(reserved)
LED Stopped        =   0(off (default))
Reporting entity ID: 0 ( Cab 0 Cell 0 CPU 0 )
Reporting entity Full Name: HP-UX Kernel
IPMI Event ID : 7217 (0x1c31)

>---------- End Event Monitoring Service Event Notification ----------<

实在无从着手,是不是需要安装什么补丁啊?

论坛徽章:
48
15-16赛季CBA联赛之青岛
日期:2021-01-07 13:41:2315-16赛季CBA联赛之上海
日期:2020-12-01 18:02:0720周年集字徽章-20	
日期:2020-10-28 14:14:2620周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之天津
日期:2020-10-18 22:51:412016猴年福章徽章
日期:2016-02-18 15:30:3415-16赛季CBA联赛之北控
日期:2015-12-22 13:30:48操作系统版块每日发帖之星
日期:2015-12-07 06:20:00操作系统版块每日发帖之星
日期:2015-09-04 06:20:002015亚冠之德黑兰石油
日期:2015-08-05 18:46:082015年亚洲杯之巴勒斯坦
日期:2015-04-19 10:42:502015年亚洲杯之巴林
日期:2015-04-09 08:03:23
2 [报告]
发表于 2012-12-30 04:58 |只看该作者
MCA是因为硬件问题导致的,这个要分析具体mca dump文件(可以看下/var/tombstones目录下有没有相应的mca文件,有的话找HP分析一下吧),这种时候和补丁无关;
INIT一般是软件或人为触发的,人为的话当然得看是谁做的了,软件的话得看是哪个软件触发的(一般在集群里面有这种情况,查到原因后再根据需要是否要打补丁)。

论坛徽章:
0
3 [报告]
发表于 2012-12-30 13:22 |只看该作者
本帖最后由 alpha4000 于 2012-12-30 15:48 编辑
lbseraph 发表于 2012-12-30 04:58
MCA是因为硬件问题导致的,这个要分析具体mca dump文件(可以看下/var/tombstones目录下有没有相应的mca文件 ...


谢谢
/var/tombstones下是空的
/var/adm/crash下也没有最近的log
syslog中只有我帖子上发的那个信息
pkg的log中未见异常

请问版主还能从哪块下手啊?
我还准备去mp上抓下event log

论坛徽章:
0
4 [报告]
发表于 2012-12-30 16:19 |只看该作者
你确认这是syslog.log中的文字? syslog中不会有"Probable Cause / Recommended Action"之类的信息。你贴出来的信息应该是个提示命令的输出吧,看一下产生的时间。可能你的机器还没有重启过,因此相关的mca dump还没有拷贝到OS中, 在硬件日志中找找线索看。

评分

参与人数 1可用积分 +5 收起 理由
lbseraph + 5 谢谢积极回复!

查看全部评分

论坛徽章:
0
5 [报告]
发表于 2012-12-30 18:35 |只看该作者
uriyliu 发表于 2012-12-30 16:19
你确认这是syslog.log中的文字? syslog中不会有"Probable Cause / Recommended Action"之类的信息。你贴出 ...


是按照syslog中提示的命令的输出
产生的时间是28日晚21时,而最近一次的人工重启(做切换测试的)是在21号,之后主机未重启
你的意思,想看到dump还需要重启主机?

论坛徽章:
48
15-16赛季CBA联赛之青岛
日期:2021-01-07 13:41:2315-16赛季CBA联赛之上海
日期:2020-12-01 18:02:0720周年集字徽章-20	
日期:2020-10-28 14:14:2620周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之天津
日期:2020-10-18 22:51:412016猴年福章徽章
日期:2016-02-18 15:30:3415-16赛季CBA联赛之北控
日期:2015-12-22 13:30:48操作系统版块每日发帖之星
日期:2015-12-07 06:20:00操作系统版块每日发帖之星
日期:2015-09-04 06:20:002015亚冠之德黑兰石油
日期:2015-08-05 18:46:082015年亚洲杯之巴勒斯坦
日期:2015-04-19 10:42:502015年亚洲杯之巴林
日期:2015-04-09 08:03:23
6 [报告]
发表于 2012-12-31 08:05 |只看该作者
syslog对应这种命令的输出基本是EMS的,可以在文件/var/opt/resmon/log/event.log里面看到。

21日人工重启是怎么重启的?使用命令reboot或shutdown?还是MP里面做tc?或直接按了面板上的INIT按钮(应该不是后两者,因为那样的话/var/adm/crash会有相应的dump文件)?

如果/var/tombstones下没mca文件的话,要查看mca文件的话只能在EFI Shell使用命令“errdump mca”调出来查看(要核对时间戳,可能看到的时间和OS看到的不一样,如果排查了上面的情况,这种时候可能是OS的问题了)。

目前还是查看一下MP的SEL先,对比一下OS这个时间点下是否有相应的日志能确认到原因。

论坛徽章:
0
7 [报告]
发表于 2012-12-31 15:02 |只看该作者
lbseraph 发表于 2012-12-31 08:05
syslog对应这种命令的输出基本是EMS的,可以在文件/var/opt/resmon/log/event.log里面看到。

21日人工重 ...


谢谢
21日重启的时候是做mcsg的切换测试,是reboot的
我帖子中描述的这个错误是28日20:59出现的

最新的情况:
1、我到现场查看了设备,无告警
2、mp口看了sel,只有到21日那天的log
3、crash、mca的log都没有产生
4、pkg的log也没有什么异常

现在业务运行正常,我准备再观察观察了

论坛徽章:
48
15-16赛季CBA联赛之青岛
日期:2021-01-07 13:41:2315-16赛季CBA联赛之上海
日期:2020-12-01 18:02:0720周年集字徽章-20	
日期:2020-10-28 14:14:2620周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之天津
日期:2020-10-18 22:51:412016猴年福章徽章
日期:2016-02-18 15:30:3415-16赛季CBA联赛之北控
日期:2015-12-22 13:30:48操作系统版块每日发帖之星
日期:2015-12-07 06:20:00操作系统版块每日发帖之星
日期:2015-09-04 06:20:002015亚冠之德黑兰石油
日期:2015-08-05 18:46:082015年亚洲杯之巴勒斯坦
日期:2015-04-19 10:42:502015年亚洲杯之巴林
日期:2015-04-09 08:03:23
8 [报告]
发表于 2012-12-31 16:15 |只看该作者
回复 7# alpha4000

你1#描述的信息应该不全吧?一般下面还有对应这个事件实际的时间戳的~可以的话,最好把/var/opt/resmon/log/event.log中完整的信息全部贴出来看眼。

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
9 [报告]
发表于 2013-01-01 14:37 |只看该作者
8008107000

论坛徽章:
0
10 [报告]
发表于 2013-01-02 23:08 |只看该作者
lbseraph 发表于 2012-12-31 16:15
回复 7# alpha4000

你1#描述的信息应该不全吧?一般下面还有对应这个事件实际的时间戳的~可以的话,最好 ...


你好版主,我把28日产生的2个log贴上来了
麻烦你帮忙再分析分析
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP