免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: shadowyu_cz
打印 上一主题 下一主题

[小机硬件] P630莫名死机 [复制链接]

论坛徽章:
0
21 [报告]
发表于 2008-01-29 15:48 |只看该作者
哦,谢谢你哦。我再和当天值班的人员联系回想看看。
我们的系统安装过一个自主开发的监控程序,不知道是不是这个程序产生了不好的影响。但是现在我拿不到这部分源码,改天要是有了,我再发到你邮箱,麻烦你再帮我分析一下看看,好吗?谢谢你!

论坛徽章:
0
22 [报告]
发表于 2008-01-29 15:54 |只看该作者
没问题,我会尽力。

在此之前,你可以扩大paging space到8GB,以及加多一些对于errpt的监控。

这样可以避免对这台设备的突然失去控制。

论坛徽章:
0
23 [报告]
发表于 2008-01-29 16:09 |只看该作者
好的,我会注意多观察的。

论坛徽章:
0
24 [报告]
发表于 2008-01-29 17:01 |只看该作者
原帖由 shadowyu_cz 于 2008-1-29 15:48 发表
哦,谢谢你哦。我再和当天值班的人员联系回想看看。
我们的系统安装过一个自主开发的监控程序,不知道是不是这个程序产生了不好的影响。但是现在我拿不到这部分源码,改天要是有了,我再发到你邮箱,麻烦你再帮 ...


如果能够回想起这个程序的安装启用时间,那将对于分析hang机原因非常有用处。

从整个过程来看,极有可能是由于某些程序引发了内存泄露(memory leaking),导致paging space被消耗光。

但是从设备04年开始的记录到现在,这是首次出现pgsp-kill,所以和历史上的ha events无关,而应该与近期的变更有关系。

我相信在我们目前没有找到根源的情况下,这个问题会再度出现。

所以,你需要监控errpt的输出,lsps -a的输出,同时定时使用“svmon -Pu|more"检查什么进程占用了最大量的内存,通过输出到文件,

即可对增长率以及占用内存的进程有很好的监控。

论坛徽章:
0
25 [报告]
发表于 2008-01-29 17:04 |只看该作者
那个程序是5月25日装的,这个我们有纪录的。那之后一直没有出现什么问题,知道25日我们发现这台设备无法登录了。

论坛徽章:
0
26 [报告]
发表于 2008-01-29 17:15 |只看该作者
07年5月25日么?那应该也不是原因!

我还在继续琢磨,反复”人肉搜索”呢!

在找到原因之前,先把监控的事情做起来吧!

论坛徽章:
0
27 [报告]
发表于 2008-01-30 09:13 |只看该作者
OK,没有问题。

论坛徽章:
0
28 [报告]
发表于 2008-01-30 09:57 |只看该作者
学习了,谢谢分享。
欢迎yanbing 分享更多解决问题的思路
继续欢迎同样的文章

[ 本帖最后由 deargentle 于 2008-1-30 10:02 编辑 ]

论坛徽章:
0
29 [报告]
发表于 2008-01-30 14:46 |只看该作者
关于这个case,我力图在当前数据基础上找出从7日开始paging space开始过度消耗的原因,但由于数据的缺乏,实在无法找到root cause。

其中还涉及到查询具体OS和HA版本的fix信息,都没有明确收获。

对于这个case,现在的结论如下:
1。errpt中的BFE4C025 sysplanar0 UNDETERMINED ERROR信息是标明曾经使用power键强制power off过。属于实际情况的准确记录;对未来使用无影响;

2。系统无响应的原因是paging space耗尽造成,发生时间是08年1月7日中午12点,一直到08年1月25日强制power off。

3。HA对于这种paging space耗尽的现象是没法处理的,除了kill掉ha本身的进程,不能解决掉占用paging的其他进程;

4。耗尽paging space的进程由于当前dump不是此次power off时所做,所以无法查询到具体进程号及内容;

5。从历史记录来看,未出现同样的pgsp kill现象,此次是首次,其原因与08年1月7日之前的变更关联性可能较大;

next action plan:

1。sysdumpdev -l 检查当前dumpdev的设置。注意always allow dump是否等于true;

     如果不是,使用sysdumpdev -K使always allow dump=true。

2。如果下次出现同样状况,不要使用白色power键强制power off,可以通过按一次reset键,或者使用ctrl - alt -小键盘1来生成一个dump到主设备(hd6)。这样到时就有数据能够分析出当时paging消耗光的root cause了。

3。在未出现之前,在crontab里面设置命令,定期采集lsps -a的输出,以及“svmon -Pu"输出到文件。并定期检查errpt信息。

基本情况如上,供参考。

有后续信息可以在此帖update。

论坛徽章:
0
30 [报告]
发表于 2008-01-31 11:16 |只看该作者
yan兄让我大开眼界
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP