免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 8214 | 回复: 13
打印 上一主题 下一主题

[小机硬件] P520内存故障的郁闷,有谁知道故障真正的原因??? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-03-27 14:49 |只看该作者 |倒序浏览
两台9111-520,微码版本均是SF235_180,无分区,未连接HMC,有内置raid卡。两台设备先后发生了完全相同的内存报错故障,现象如下:

1、设备最早报错信息:
BFE4C025   1114125610 P H sysplanar0     UNDETERMINED ERROR

SRC:                    B120E500
Description:            Memory subsystem including external cache Predictive
                        Error, general. Refer to the system service
                        documentation for more information.
Additional Words:       2-030000F0 3-523C0110 4-C13920FF 5-40000000
                        6-00811930 7-00000001 8-00A0008E 9-00000000
Possible FRUs:
    Priority: M Maintainence Procedure: FSPSP35
    Location: n/a

2、根据FSPSP35,对设备进行了关机、慢启操作,启动后设备报错如下;
BFE4C025   1204185110 P H sysplanar0     UNDETERMINED ERROR

Diagnostic Analysis
Diagnostic Log sequence number: 811
Resource tested:        sysplanar0
Resource Description:   System Planar
Location:               
SRC:                    B123E500
Description:            Memory subsystem including external cache Predictive
                        Error, general. Refer to the system service
                        documentation for more information.
Additional Words:       2-030000F0 3-523C0110 4-C13920FF 5-410000FF
                        6-00811930 7-00000001 8-00A0008A 9-5100101F
Possible FRUs:
    Priority: M FRU: 00P5767  S/N: YL10G5338191 CCIN: 30D2
    Location: U787A.001.DPM2C3T-P1-C10

查看系统内存容量未降,报错内存状态为available。

3、先后对两台设备进行了微码升级(分别升到了SF240_358和SF240_382),故障未排除,每天仍有如2所示的内存报错;

4、对报错内存进行更换,更换时出现以下现象:
1)shutdown后登陆ASMI,发现报错内存所在组被deconfigured;
2)更换故障内存(只更换报错的那根),对设备进行出厂初始化;
3)系统启动后正常;
4)所更换的内存不再报错,但一段时间后(十几天或一个月)其他槽位内存又报内存错误,每次关机后报错内存均被deconfigured;
5)将更换下的故障内存(四根)插入一台P550上,运行一段时间检测内存正常。

谁遇到过类似的情况或知道故障原因的,请给予帮助,谢谢!

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
2 [报告]
发表于 2011-03-27 14:59 |只看该作者
这不是报的cache错吗
没换cpu板试啊
asmi里难道没cache的错?

论坛徽章:
0
3 [报告]
发表于 2011-03-27 15:03 |只看该作者
本帖最后由 roogigyel3 于 2011-03-28 19:10 编辑
这不是报的cache错吗
没换cpu板试啊
asmi里难道没cache的错?
yddll 发表于 2011-03-27 14:59



    asmi内报的和系统内一样,都只有内存的错误。P520的CPU是集成在背板上的(或者是直插在背板上),内存是插在背板上的。

论坛徽章:
0
4 [报告]
发表于 2011-03-27 16:49 |只看该作者
P 520 1way 2way 均有货 有需要给偶消息

论坛徽章:
0
5 [报告]
发表于 2011-03-27 17:13 |只看该作者
同事说换内存要一组一组的更换,不知道有没有关系?我都是只换报错的那根的。

论坛徽章:
0
6 [报告]
发表于 2011-03-28 11:14 |只看该作者
更换一组内存是最保险的。关键是不是内存的问题。你可以做一下测试

论坛徽章:
0
7 [报告]
发表于 2011-03-28 19:07 |只看该作者
更换一组内存是最保险的。关键是不是内存的问题。你可以做一下测试
aiwsuoai 发表于 2011-03-28 11:14



    根本原因肯定不是内存,但还是和内存有关。通过几次维修得到的结果:
如果系统报出了某根内存故障(B123E500),在关机后这根内存所在的组肯定会被deconfigured。
这种情况下,如不更换内存,直接做出厂初始化,内存恢复,但第二天这根内存会继续报错;
如果更换了内存后做出厂初始化,则问题解决。所更换的内存之后再没有报过错,过段时间其他的内存又会报错。换下的内存装在其他机器上仍能正常使用而不报错。

论坛徽章:
0
8 [报告]
发表于 2011-03-29 10:57 |只看该作者
你可以在内存后做出厂初始化后,直接想报错日志清除,然后观察一段时间。

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
9 [报告]
发表于 2011-03-29 15:08 |只看该作者
你memory deconfigured的时候,有注意Deconfigured Resource吗

1.jpg (28.88 KB, 下载次数: 37)

Example

Example

论坛徽章:
0
10 [报告]
发表于 2011-03-30 10:09 |只看该作者
不好意思,我未找到你图中所示内容是在哪里抓取的?我这里有一个ASMI中抓取的图片:
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP