免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2943 | 回复: 12
打印 上一主题 下一主题

[SCO UNIX] 系统panic 十万火急 高手请进 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2004-12-23 21:06 |只看该作者 |倒序浏览
ES40 Tru64 4.0F  TruCluster环境
(是否有代码手册之类的文档帮助分析)
使用wsea tra命令分析binary.errlog文件,wccat gui 分析crash文件有如下信息:
wsea tra:

Event:       430
Description: Tru64 UNIX Panic ASCII Message  at Mon 13 Dec 2004 12:05:07 GMT+08:00 from xxx2
File:        /var/adm/binary.errlog
================================================================================

COMMON EVENT HEADER (CEH) V2.0
Event_Leader           xFFFF FFFE              
Header_Length           252                    
Event_Length            312                    
Header_Rev_Major        2                     
Header_Rev_Minor        0                     
OS_Type                 1                      -- Tru64 UNIX
Hardware_Arch           4                      -- Alpha
CEH_Vendor_ID           3,564                  -- Hewlett-Packard Company
Hdwr_Sys_Type           34                     -- Tsunami/Typhoon Corelogic
Logging_CPU             3                      -- CPU Logging this Event
CPUs_In_Active_Set      4                     
Major_Class             302                    
Minor_Class             255                    
Entry_Type              302                    -- Tru64 UNIX Panic ASCII Message
DSR_Msg_Num             1,820                  -- AlphaServer ES40
                                               .... CPU Slots: 4 (667Mhz)
                                               .... PCI Slots: 10
                                               .... MMB Slots: 8 (DIMMs)
Chip_Type               11                     -- EV67 - 21264A
CEH_Device              255                    
CEH_Device_ID_0        x0000 03FF              
CEH_Device_ID_1        x0000 0007              
CEH_Device_ID_2        x0000 0007              
Unique_ID_Count         211                    
Unique_ID_Prefix        49,228                 
Num_Strings             5                     

TLV Section of CEH
TLV_DSR_String         AlphaServer ES40        
TLV_OS_Version         Digital UNIX V4.0F  (Rev. 1229)
TLV_Sys_Serial_Num     S31xxxxxxx              
TLV_Time_as_Local      Mon 13 Dec 2004 12:05:07 GMT+08:00
TLV_Computer_Name      xxx2                    
Entry_Type              302                    

Tru64 UNIX Panic ASCII Message
Panic_Message_Header   **** START Panic ASCII Message of Length: 36 Bytes ****
Panic_ASCII_Message    panic (cpu 3): kernel memory fault



Event:       431
Description: Console Data Log Event  at Tue 14 Dec 2004 09:55:38 GMT+08:00 from xxx2
File:        /var/adm/binary.errlog
================================================================================

COMMON EVENT HEADER (CEH) V2.0
Event_Leader           xFFFF FFFE              
Header_Length           252                    
Event_Length            432                    
Header_Rev_Major        2                     
Header_Rev_Minor        0                     
OS_Type                 1                      -- Tru64 UNIX
Hardware_Arch           4                      -- Alpha
CEH_Vendor_ID           3,564                  -- Hewlett-Packard Company
Hdwr_Sys_Type           34                     -- Tsunami/Typhoon Corelogic
Logging_CPU             0                      -- CPU Logging this Event
CPUs_In_Active_Set      1                     
Major_Class             113                    
Minor_Class             0                     
Entry_Type              113                    -- Console Data Log Event
DSR_Msg_Num             1,820                  -- AlphaServer ES40
                                               .... CPU Slots: 4 (667Mhz)
                                               .... PCI Slots: 10
                                               .... MMB Slots: 8 (DIMMs)
Chip_Type               11                     -- EV67 - 21264A
CEH_Device              255                    
CEH_Device_ID_0        x0000 03FF              
CEH_Device_ID_1        x0000 0007              
CEH_Device_ID_2        x0000 0007              
Unique_ID_Count         0                     
Unique_ID_Prefix        49,228                 
Num_Strings             5                     

TLV Section of CEH
TLV_DSR_String         AlphaServer ES40        
TLV_OS_Version         Digital UNIX V4.0F  (Rev. 1229)
TLV_Sys_Serial_Num     S31xxxxxxx              
TLV_Time_as_Local      Tue 14 Dec 2004 09:55:38 GMT+08:00
TLV_Computer_Name      xxx2                    
Entry_Type              113                    

Console_Data_log

START OF SUBPACKETS IN THIS EVENT

System Event Frame Header Subpacket - V1.0
Time_Stamp             x0000 340C 0E01 3422    Time Stamp
   Seconds[7]         34                     Seconds
   Minutes[15]        52                     Minutes
   Hours[23]         1                      Hours Unix = GMT  Ovms = Local
   Day[31]           14                     Day
   Month[39]         12                     December
   Year[47]          52                     2004

Fatal Environmental Error Frame Subpacket, Version 1
Cpu_Whami              x0000 0000 0000 0000    CPU 0

Environmental Logout Frame, Version 1
Frame_Size             x0000 0070              
Frame_Flags            x0000 0000              
CPU_Area_Offset        x0000 0018              
System_Area_Offset     x0000 0018              
Mchk_Error_Code        x0000 0206              Machine Check Logout Frame Error Code
   Value[31]         x206                    Environmental Fatal or Non-Fatal
Frame_Rev              x0000 0001              
SW_Sum_Flags           x0000 0000 0000 0000    Software Summary Flags Register
Cchip_DIR              x0084 0000 0000 0000    Cchip Device Interrupt Request Register
   Env_Cor_Err[50]     x1                      Environmental Error Detected

ES4X_Logout_Frame_System_Section
Environ_QW_1_ES40      x0000 0000 0000 0008    TIG SMIR Register
   RMC_Cor_Evn[3]      x1                      Environmental FAIL/WARNING DETECTED
Environ_QW_2_ES40      x0000 0000 0000 000F    TIG CPUIR Register
   CPU0_Reg_Enabled[0]x1                      CPU0  Regulator Enabled
   CPU1_Reg_Enabled[1] x1                      CPU1  Regulator Enabled
   CPU2_Reg_Enabled[2] x1                      CPU2 Regulator Enabled
   CPU3_Reg_Enabled[3] x1                      CPU3  Regulator Enabled
Environ_QW_3_ES40      x0000 0000 0000 0007    TIG PSIR Register
   PS0_Enabled[0]    x1                      Power Supply 0 Enabled
   PS1_Enabled[1]      x1                      Power Supply 1 Enabled
   PS2_Enabled[2]      x1                      Power Supply 2 Enabled
Environ_QW_4_ES40      x0000 0000 0000 0000    No Non-Fatal Errors Detected
   PS_Causng_Warng[41]x0                      Bulk PS0 (See [47] for applicable detail)
   PS_Temp_Warng[45]   x0                      Internal Temperature Normal
   PS_AC_Low_Warng[46] x0                      AC Input Low Limit Normal
   PS_AC_high_Warng[47]x0                      AC Input High Limit Normal
Environ_QW_5_ES40      x0000 0000 0000 0000    System Doors Activation Register
Environ_QW_6_ES40      x0000 0000 0000 0000    No System Temperature Warnings Detected
Environ_QW_7_ES40      x0000 0000 0000 0100    System Cooling Environmental Register
   Fan5_6_Speed_Max[8] x1                      Fan 5 Speed Detected at Maximum
Environ_QW_8_ES40      x0000 0000 0000 0000    No Fatal Errors Detected

wccat gui

----------  - kernel memory fault Digital UNIX V4.0F Node: xxx2 ----------

Full Description:
        

---- Number of Rules Matching this Case ----
Rule Match Count: 0

---- Source Rule Info. ----
Source Rule Set: Tru64_Unix_RULES_Generic: 5/16/2003
                 Tru64_Unix_RULES_V40F: 5/16/2003

---- Rule Match Results ---
Status: UNIDENTIFIED

Evidence:
        Tru64_Unix_Main Tru64_Unix_Generic Tru64_Unix_V4.0F

PHYSICAL_MEMORY: 4095
STACK_TRACE: stop_secondary_cpu panic event_timeout xcpu_puts printf panic trap _XentMM
RETURN_ADDR_I_MODULE:
CRASH_TIME: 12/14/2004 09:55:48
PANIC_STRING: kernel memory fault
PC_I_MODULE:
AVAILABLE_CPUS: 4
SAVED_EXCEPT_FRAME_PTR:
ARCHITECTURE: axp
UPTIME: 2.77 hours
HOSTNAME: xxx2
CRASH_ANALYSIS: gui
KMF_FAULTING_PC: 0xfffffb00003fef00
PANIC_CPU: 3
FAULT_VIRT_ADDRESS: fffffb00003fef00
FIRMWARE_REV:
OS_VERSION: V4.0F
SYSTEM_STRING: ES40
NUMBER_OF_CPUS: 4
OPERATING_SYSTEM: Tru64 Unix

************ End of Message ************

论坛徽章:
0
2 [报告]
发表于 2004-12-24 00:01 |只看该作者

系统panic 十万火急 高手请进

没看懂,你的机器怎么了?没有别的信息了么?messages?

论坛徽章:
0
3 [报告]
发表于 2004-12-24 00:39 |只看该作者

系统panic 十万火急 高手请进

这些是从 binary.errlog 和 core文件里读出来的
messages不可能有任何有用的信息

论坛徽章:
0
4 [报告]
发表于 2004-12-24 01:02 |只看该作者

系统panic 十万火急 高手请进

这些是从 binary.errlog 和 core文件里读出来的
messages不可能有任何有用的信息

论坛徽章:
0
5 [报告]
发表于 2004-12-24 10:22 |只看该作者

系统panic 十万火急 高手请进

Fan5_6_Speed_Max[8] x1 Fan 5 Speed Detected at Maximum 首先检查一下环境,再查一下风扇,通常这些风扇都是半速运转。
再不行,将CPU3,4 拔掉试试看。

论坛徽章:
0
6 [报告]
发表于 2004-12-24 10:23 |只看该作者

系统panic 十万火急 高手请进

kernel memory fault ,这是我最怕看到的,从来没成功解决过帮你顶一下

论坛徽章:
0
7 [报告]
发表于 2004-12-24 10:42 |只看该作者

系统panic 十万火急 高手请进

谢谢大家! ^_^
现在头疼的是:之前主机作为备机,在没有应用运行的情况下,几天之内连续crash了四五次。在用户现场待了十天了,cpu从一块加到四块,主机一次也没掉过。不知道compaq有没有很好的代码手册,帮助分析问题。IBM AIX就做的很好,只要有代码,基本上故障就定位了。

论坛徽章:
0
8 [报告]
发表于 2004-12-24 11:31 |只看该作者

系统panic 十万火急 高手请进

compaq 的这点就是做的不好,定位故障比较困难,很多人都是靠经验。代码手册没听说过,也许有。

如果机器不是频繁DOWN,就不要管他了,有很多东西弄不明白的。

论坛徽章:
0
9 [报告]
发表于 2004-12-24 12:04 |只看该作者

系统panic 十万火急 高手请进

" kernel memory fault " 多数情况下是须新patch,不知道您的机器的patch是什么,ES40的机器有许多缺陷,比如内存,主板等,您的机器不知道是否有这些毛病.另外,event 429呢?您把出故障之前的机器状态没贴出来.

论坛徽章:
0
10 [报告]
发表于 2004-12-24 13:45 |只看该作者

系统panic 十万火急 高手请进

patch是kit8(没记错的话)最新的,event 429是因为我在使用wsea tra命令时加了参数 include而没有抓出来?
系统在一年之前扩容,扩容前很稳定(因为是备机),只是在本月初连续panic多次。
咨询过HP工程师,他也说:用wsea ana一般能够找到硬件故障;用wsea tra如果看不到更多信息的话,可能是binary.errlog里的部分内容不能识别;kernel memory fault 更多情况下是软件问题;最后的办法就是分析core文件。
用kdbx分析core文件的大概步骤,有高手可以指点吗?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP