- 论坛徽章:
- 0
|
一台一向很稳定服务器down掉了,机器是HP DL380,装的是SCO 5.0.7。
到机房以后接上显示器,把屏幕信息记录下来,剩下的也就只有重启了。还好运气不错,机器顺利启起来了。
回来以后,对记下来的出错信息进行分析。
首先关注的是这条告警
WARNING: table_grow - exec data table page limit of 25 pages (MAXEXECARGS) exceeded by 1 pages
直接的感觉是某个参数设置小了导致故障,然后google了一下,发现其实是个很普遍的问题。运行程序的参数长度超过了25*4K,报错,导致程序运行失败。但不可能导致down机,先不管了。
然后是下面这条信息,应该系统当机的故障类型
k_trap - kernel model trap type 0X0000000E
找了些相关文档,0X0E的解释是这样的
0x0E Fault Page fault, addressing problem because the kernel tried to reference a page that it couldn't bring in to memory. Could be a memory problem (bad RAM) or a 3rd party device driver bug.
应该是硬件相关的问题,这就不好办了。没有core文件生成,而且系统应用也不能停,不能替换或者最小化系统去排查。只能是把问题报给集成商,自己加强监控了。
下面这段是故障以后在一个文档上看到的,看来下次要注意了,有用的信息还是没记全
Find the characters "cs" in the register dump. This is the chip's Code Segment (CS) register. Find the characters "eip" in the register dump. This is the chip's Instruction Pointer (IP)
register. The values in the CS and IP register combine to form the address of the instruction that the kernel was executing at the time of the panic. This value is sometimes called the "PC" value.
还有避免故障自动重启的设置
/etc/default/boot PANICBOOT=NO
本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u1/44630/showart_357564.html |
|