- 论坛徽章:
- 0
|
sun公司内部对sun服务器内存报警更换规则
转自:
http://bbs.chinaunix.net/archiver/?tid-628714.html
-----------------------------------------------------------------------
Oct 17 01:27:34 cd_db2 Fault_PC 0x10151560 Esynd 0x00c4 /N0/SB0/P1/B1/D0 J14301
Oct 17 01:27:34 cd_db2 SUNW,UltraSPARC-III+: [ID 309588 kern.info] [AFT0] errID 0x00185978.28d85060
Corrected Memory Error on /N0/SB0/P1/B1/D0 J14301 is Persistent
Oct 17 01:27:34 cd_db2 SUNW,UltraSPARC-III+: [ID 579976 kern.info] [AFT0] errID 0x00185978.28d85060
Data Bit 109 was in error and corrected
上述告警表明/N0/SB0/P1/B1/D0 J14301的Data Bit 109出现一次可修复的ecc校验错误.
1.同一内存同一数据位一天之内出现14次可修复的错误(CE)告警,认为该内存该数据位可能有问题,需要进行更换。
2、同一内存不同数据位出现告警,认为该内存硬件可能有缺陷,需要更换。
3、不可修复的错误(UE),认为该内存硬件可能有缺陷,需要更换。
严重的内存故障将导致服务器down机,因此处理内存告警需要注意观察和分析!
当然,如果客户坚持更换,不管什么错误sun还是会换的
本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u/832/showart_96844.html |
|