免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 6123 | 回复: 19
打印 上一主题 下一主题

一次宕机的处理(错误码4B2A25F4U0.1-P1-C1) [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2004-05-06 18:38 |只看该作者 |倒序浏览
IBM宕机处理全过程\r\n\r\n背景描述:P650双机,磁盘阵列7133,4CPU 4G内存,下午一台机器突然宕机了,重启后进入OK状态,然后再按开关,LED显示了错误码,4B2A25F4U0.1-P1-C1,反复试了几次结果都一样。\r\n\r\n初步分析:经过咨询IBM人员,错误代码的意思就是,两路CPU故障,有可能是CPU的问题,有可能是CPU卡的问题。初步思路:就是将故障的CPU隔离。 \r\n\r\n用串口登录到维护状态:\r\n\r\nService Processor Firmware\r\n       Version: 3K030814\r\n Copyright 2001, IBM Corporation\r\n            1033F4A\r\n________________________________\r\n            MAIN MENU\r\n\r\n 1. Service Processor Setup Menu\r\n 2. System Power Control Menu\r\n 3. System Information Menu\r\n 4. Language Selection Menu\r\n 5. Call-In/Call-Out Setup Menu\r\n 6. Set System Name\r\n99. Exit from Menus\r\n\r\n选择3进入系统信息,再选择7,就是对processor的控制,将1和2设置为 manaual deconfig 状态,就是将这两个CPU隔离了。然后重启系统,但是故障依旧。以为是CPU隔离错了,就将3和4号配置成 manaual deconfig,1和2号回复为 manaul config,从启后故障依旧。\r\n\r\n第二天早上来看,第二台机器也宕掉了,错误和第一台一摸一样。\r\n\r\n这时在IBM工程师的远程支持下,在维护模式下,将错误日志发给了他,\r\n2.  05/04/2004 14:01:47     System Processor Failure\r\n    Error code: 4B2A25F4\r\n\r\n    Priority       FRU        Location Code\r\n    --------       -------    ---------------\r\n    High           00P4050     U0.1-P1-C1\r\n\r\n\r\n\r\n\r\n    SRC\r\n    --------------------------------------------------------------\r\n    word11: 4B2A25F4    word12: 02100011    word13: A2101103\r\n    word14: 00000000    word15: 00000000    word16: 00000020\r\n    word17: F3820004    word18: 0020FFFF    word19: FFFFFFFF\r\n\r\n    B438    800325F40000000000000000\r\n\r\nIBM首先怀疑是电源问题,至于为什么不知。\r\n查看后发现确实是有点问题,一个机柜中有两个插排,所有的电源都插在了一个插排上,另一个没有用?(为什么是这样也不得而知了,谁知道这个工程是怎么做得)。关机调整后,重新开机,但是错误依然。\r\n\r\n\r\n最后INM工程师提示,将启动方式改为fast boot,以前为slow boot,再次启动,居然正常了。\r\n\r\n之后用snap收集了相关信息发给IBM,具体结果还不得而知。IBM初步给的建议就是微码升级!\r\n\r\nhttp://techsupport.services.ibm.com/server/mdownload/download.html

论坛徽章:
0
2 [报告]
发表于 2004-05-07 21:13 |只看该作者

一次宕机的处理(错误码4B2A25F4U0.1-P1-C1)

一般来说,两台设备出现同样的问题,一定和共性的东西有关。\r\n\r\n比如,环境与微码等。\r\n\r\n这件事情有个结果还望回来说一声,也给大家一个参考。谢谢!

论坛徽章:
0
3 [报告]
发表于 2004-05-07 22:47 |只看该作者

一次宕机的处理(错误码4B2A25F4U0.1-P1-C1)

fast boot? slow boot?\r\nwhy?

论坛徽章:
0
4 [报告]
发表于 2004-05-08 09:18 |只看该作者

一次宕机的处理(错误码4B2A25F4U0.1-P1-C1)

是哪里出现问题了,FAST BOOT应该是跳过一些检测,所以通过了。但是安全隐患应该没解决!

论坛徽章:
0
5 [报告]
发表于 2004-05-08 14:22 |只看该作者

一次宕机的处理(错误码4B2A25F4U0.1-P1-C1)

是的,IBM的解释是,可能是个微码BUG ,在慢起是才有影响。升级微码可以解决这个问题,先升级微码然后再看看,明天升级微码后才知道。

论坛徽章:
0
6 [报告]
发表于 2004-05-08 16:06 |只看该作者

一次宕机的处理(错误码4B2A25F4U0.1-P1-C1)

如何设置fast boot 和slow boot呢

论坛徽章:
0
7 [报告]
发表于 2004-05-17 05:44 |只看该作者

一次宕机的处理(错误码4B2A25F4U0.1-P1-C1)

通过升级微码后,该为slow boot,机器已经可以起来。但是遇到一个奇怪的问题,就是一拉起双机,大概10分钟后一套机器就会自动宕机,后来查看日志发现,是被其他的机器关掉的。后来检查配置,这套双机的clustreID与其他机器的ID重复了,所以启动后被别的机器给关掉了!!

论坛徽章:
0
8 [报告]
发表于 2004-05-18 21:40 |只看该作者

一次宕机的处理(错误码4B2A25F4U0.1-P1-C1)

微码升级简单步骤:\r\n### Procedimento para Update do Firmware ###\r\n\r\n1. cd /tmp/fwupdate \r\n2. chmod +x 70286C4F.BIN \r\n3. ./70286C4F.BIN\r\n4. sum 3R031021.img   ---目的:通过检查文件大小,确认升级软件正确的上传到server\r\n         The output will look like this ----->;  30735  4907    3R031021.img \r\n         The checksum is ----->;  30735 \r\n5. cd /usr/lpp/diagnostics/bin \r\n   ./update_flash -f /tmp/fwupdate/3R031021.img \r\n6. lscfg -vp | grep -p  Platform \r\n\r\n### Procedimento para Update do Firmware ###

论坛徽章:
0
9 [报告]
发表于 2004-05-19 14:48 |只看该作者

一次宕机的处理(错误码4B2A25F4U0.1-P1-C1)

感谢楼主,写得这么详细,有因有果,最后还有如何升微码.

论坛徽章:
0
10 [报告]
发表于 2005-03-18 14:11 |只看该作者

一次宕机的处理(错误码4B2A25F4U0.1-P1-C1)

这个案例很有借鉴作用,非常感谢!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP