免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1445 | 回复: 0
打印 上一主题 下一主题

一台SCO机器的故障检查过程 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-08-10 16:34 |只看该作者 |倒序浏览
一台一向很稳定服务器down掉了,机器是HP DL380,装的是SCO 5.0.7。
到机房以后接上显示器,把屏幕信息记录下来,剩下的也就只有重启了。还好运气不错,机器顺利启起来了。
回来以后,对记下来的出错信息进行分析。
首先关注的是这条告警
WARNING: table_grow - exec data table page limit of 25 pages (MAXEXECARGS) exceeded by 1 pages
直接的感觉是某个参数设置小了导致故障,然后google了一下,发现其实是个很普遍的问题。运行程序的参数长度超过了25*4K,报错,导致程序运行失败。但不可能导致down机,先不管了。
然后是下面这条信息,应该系统当机的故障类型
k_trap - kernel model trap type 0X0000000E
找了些相关文档,0X0E的解释是这样的
0x0E Fault Page fault, addressing problem because the kernel tried to reference a page that it couldn't bring in to memory. Could be a memory problem (bad RAM) or a 3rd party device driver bug.
应该是硬件相关的问题,这就不好办了。没有core文件生成,而且系统应用也不能停,不能替换或者最小化系统去排查。只能是把问题报给集成商,自己加强监控了。
下面这段是故障以后在一个文档上看到的,看来下次要注意了,有用的信息还是没记全
Find the characters "cs" in the register dump. This is the chip's Code Segment (CS) register. Find the characters "eip" in the register dump. This is the chip's Instruction Pointer (IP)
register. The values in the CS and IP register combine to form the address of the instruction that the kernel was executing at the time of the panic. This value is sometimes called the "PC" value.
还有避免故障自动重启的设置
/etc/default/boot PANICBOOT=NO


本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u1/44630/showart_357564.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP