免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 6637 | 回复: 18
打印 上一主题 下一主题

[故障求助] 一个系统频繁宕机(888 102 300 0C0)的案例分析与解决!!! [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2005-05-30 15:53 |只看该作者 |倒序浏览
我的系统(H85)前一段连续几天宕机器,一个星期宕了4次. LED 报 888 102 300 0C0,显示是软件或硬件错误引起宕机,查guide 300显示 软件在处理器里中断. errpt里显示有大量的硬盘临时及部分永久错误,我开始以为硬盘有问题,于是做在线diag和停止机器做standalone diag,都也没什么错误. 在standalone模式下做硬盘的表面测试也显示没有问题.
我还是以为硬盘可能什么其他没有检测出的问题导致了系统宕机. 于是更换了硬盘. 但是过了两天系统又开始报大量硬盘临时错误并宕机. 当时有几个情况引起我的注意,客户说去年这个机器也莫名气妙宕了好几次机,而且有很长一段时间机房的空调有问题,温度很高. 于是我就检测了机器的温度环境(/usr/lpp/diagnostics/bin/uesensor -l或采用diag里的task选项),发现这台机器温度比其他小型机要高出近10度. IO 柜大约36-37度,CEC为28-30度, 而其他机器大约为22-27度.  且该机器放置紧贴在另一台机器的下面. 下面是7133存储,S00机柜全部充满. 但该机器电源,风扇等冷却系统正常.系统没有相关错误且该机器刚刚做过清洗(该故障在清洗之前就一存在). 现在该机房已经安装新空调,温度比较正常. 检测该机器温度为24-30度,其他机器22-24度,最高的一台温度为27-32度,主要是IO柜高为32度. 该机器也将近一个月没有宕机了.

因此我怀疑可能是机房温度太高并且该机器放置的位置导致他散热不通畅, 从而导致主机温度太高超过正常工作温度(10-40度)从而导致系统宕机.

这是我以前写的分析报告,我开始也以为是温度引起的问题. 到事实可能不是这样的. 以下是后来写的报告..

4.21 10:00左右客户通知我们H85机器宕机,LED显示 888 102 300 0C0 代码. 系统已经HA切换到另一台H80机器. 因此前该H85机器出现过多次宕机现象,LED代码显示一样为8881023000C0,每次系统均报大量硬盘临时及永久硬件错误,开始怀疑是内置硬盘故障,更换硬盘后故障也出现过几次且硬盘表面测试正常,后来发现该H85机器温度太高接近40度的正常工作温度上限,当时怀疑是机器温度太高导致系统异常宕机.建议用户修复机房空调后该机器正常工作了近2个月没有出现宕机故障. 因此这次又出现宕机故障,一开始怀疑是否又是温度问题或者是硬盘问题.
不久客户将该H85重新启动并将HA切回H85. 但过了一段时间该机又宕机了,客户又将H85重新启动并回切,据客户反映这次HA好象没有完全成功切换.因为在电话中无法详细处理且我司工程师已在赶赴现场的途中,因此让客户保留现场等待我司的处理.
到达现场后将H85重新启动发现系统报大量硬盘错误,且HA启动不正常.于是又将H85再次启动,这时系统已不能启动,LED代码显示引导记录丢失. 由于该机器此前的宕机故障现象,没有仔细考虑可能是引导列表丢失的情况,认为可能是硬盘损坏导致引导记录丢失,为保险起见没有重建引导记录而是直接为客户更换硬盘. 待更换硬盘后用系统备份磁带恢复时发现该备份磁带已经失效,于是只好从另一台与该H85做HA的H80机器备份数据并恢复到H85上.在恢复的过程中发现系统无法恢复到hdisk0上,报"无效的磁盘位置"类似的错误. ,我怀疑是2台机器内置硬盘安装的SCSI ID不一样造成,H80上硬盘是SCSI ID 4因此备份磁带记录的也是ID 4,而H85实际安装的位置是SCSI ID 8(H85可以安装2块内置硬盘,SCSI ID 分别为4,导致恢复时报类似错误,因此我想通过恢复安装选择项中的改变安装磁盘及方法的方法让系统识别在ID8上的hdisk0磁盘.但是当选择了修改安装方法的选择项后发现无法像原来一样进一步修改安装选择项,只显示可以安装在hdisk0上. 当时也没多想,就直接恢复安装了,后来通过SMS菜单才发现这个hdisk0根本就不是内置硬盘而是7133上的SSA 逻辑磁盘.这样还造成了7133上一部分大约半天数据的丢失. 为防止再次上面的错误,我们将H85上内置硬盘位置更改为与H80一样的SCSI ID4并将H85与7133断开进行恢复,恢复成功后系统成功启动一次后又再次报找不到引导记录无法启动. 为防止再次上面的错误,我们将H85上内置硬盘位置更改为与H80一样的SCSI ID4并还安装了另一块ID8的测试硬盘.并每次恢复前进入SMS菜单确认,此时发现系统启动设备根本就没有找到内置硬盘,反复启动几次发现有时能找到2块内置硬盘中的某一块,有时一块也找不到.这时才发现问题可能出在这个启动列表丢失的问题上,结合以前该机器的宕机故障,认为可能是连接内置硬盘的SCSI线缆有问题(尽管一般认为这种可能性很小)或者存储bootlist的NVROM后系统电池有问题. 于是在H80上恢复7133损失的数据并用HA将全部应用切在H80上运行后,等待公司备件.
备件到达后更换SCSI线缆后反复启动机器,启动列表不丢失.恢复系统数据更改同步HA后系统正常.

至此该问题才算解决. 从此例可以看出,有些认为不可能的故障也能导致莫名其妙的问题(如此例的SCSI线). 不可存侥幸心理必须逐个排除!!

论坛徽章:
0
2 [报告]
发表于 2005-05-30 16:05 |只看该作者

一个系统频繁宕机(888 102 300 0C0)的案例分析与解决!!!

谢谢分享
有时候把io柜拿下来,捋一捋scsi线也有可能管事

论坛徽章:
0
3 [报告]
发表于 2005-05-30 17:06 |只看该作者

一个系统频繁宕机(888 102 300 0C0)的案例分析与解决!!!

谢谢
好文!!

论坛徽章:
0
4 [报告]
发表于 2005-05-31 09:17 |只看该作者

一个系统频繁宕机(888 102 300 0C0)的案例分析与解决!!!

謝謝分享經驗...

论坛徽章:
0
5 [报告]
发表于 2005-05-31 12:47 |只看该作者

一个系统频繁宕机(888 102 300 0C0)的案例分析与解决!!!

祝你的公主快乐健康!!!

这么紧要的关头你还能保持工作干劲,佩服佩服!!!

论坛徽章:
0
6 [报告]
发表于 2005-05-31 15:03 |只看该作者

一个系统频繁宕机(888 102 300 0C0)的案例分析与解决!!!

初看起来后面的问题原因的确很少见,不过大家想过没有,最后SCSI线的故障很有可能就是以前机房在高温环境下长期工作的结果呀!!

不单是SCSI线,许多电子元件也会出现很奇怪的问题,经常遇到的电源,硬盘在工作中时好时坏,都和机房环境有很大关系.

论坛徽章:
0
7 [报告]
发表于 2005-06-01 10:55 |只看该作者

一个系统频繁宕机(888 102 300 0C0)的案例分析与解决!!!

解决这类问题是
很头疼的,这非常
有用,谢谢分享

论坛徽章:
0
8 [报告]
发表于 2005-06-01 14:31 |只看该作者

一个系统频繁宕机(888 102 300 0C0)的案例分析与解决!!!

经过认证,结论如下:由于长期高温工作,导致机器内伤

论坛徽章:
0
9 [报告]
发表于 2005-06-01 15:48 |只看该作者

一个系统频繁宕机(888 102 300 0C0)的案例分析与解决!!!

丫中暑了吧

论坛徽章:
0
10 [报告]
发表于 2005-06-01 16:28 |只看该作者

一个系统频繁宕机(888 102 300 0C0)的案例分析与解决!!!

谢谢!!!我们这里也有报这样的错误!!谢谢分享
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP