免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: lg700587
打印 上一主题 下一主题

跪求东方蜘蛛大侠指导 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2011-01-07 17:00 |只看该作者
蜘蛛献身了

论坛徽章:
0
12 [报告]
发表于 2011-01-07 21:18 |只看该作者
教主现身 教主 现身 :)

论坛徽章:
2
双鱼座
日期:2014-02-23 12:10:03操作系统版块每日发帖之星
日期:2015-12-17 06:20:00
13 [报告]
发表于 2011-01-07 22:58 |只看该作者
我是个刚入门的菜鸟,前不久在帖子上看到有问内存报错的,对于dmesg里面的内存报错一直看不懂,看到蜘蛛大侠 ...
lg700587 发表于 2011-01-06 11:45



    同一内存同一数据位的报错在系统日志中就可以看出来啊,例如;

Oct 17 01:27:34 server Fault_PC 0x10151560 Esynd 0x00c4 /N0/SB0/P1/B1/D0 J14301
Oct 17 01:27:34 server SUNW,UltraSPARC-III+: [ID 309588 kern.info] [AFT0] errID 0x00185978.28d85060
Corrected Memory Error on /N0/SB0/P1/B1/D0 J14301 is Persistent
Oct 17 01:27:34 server SUNW,UltraSPARC-III+: [ID 579976 kern.info] [AFT0] errID 0x00185978.28d85060
Data Bit 109 was in error and corrected

   如果J14301槽位的内存的Data Bit 109数据位在系统中重复报错,就属于同一内存同一数据位。

论坛徽章:
2
双鱼座
日期:2014-02-23 12:10:03操作系统版块每日发帖之星
日期:2015-12-17 06:20:00
14 [报告]
发表于 2011-01-07 23:05 |只看该作者
当处理器(CPU)从内存中读取数据时探测到一个可修复(CE)的错误,他会修正这个数据并继续他的操作。这个错误会被记录在CPU的AFSR(asynchronous fault status register)中,错误发生的物理地址会被记录到CPU的…………
lg700587 发表于 2011-01-06 11:45



    这段是说的可修复的错误内存处理。
   作为错误处理的一部分,Solaris软件会产生关于诊断的些日志,例如:
Oct 25 09:06:25 server SUNW,UltraSPARC-III: [ID 796192 kern.notice] NOTICE: [AFT0] Corrected system bus (CE) Event on CPU18 at TL=0, errID 0x0000c9b9.19d92690
Oct 25 09:06:25 server AFSR 0x00000002<CE>.00000097 AFAR 0x00000001.04bdf7d0
Oct 25 09:06:25 server Fault_PC 0x10024a74 Esynd 0x0097 /N0/SB5/P3/B0/D2 J16500
Oct 25 09:06:25 server SUNW,UltraSPARC-III: [ID 154767 kern.notice][AFT0] errID 0x0000c9b9.19d92690 Corrected Memory Error on /N0/SB5/P3/B0/D2 J16500 is Persistent
Oct 25 09:06:25 server SUNW,UltraSPARC-III: [ID 682217 kern.notice][AFT0] errID 0x0000c9b9.19d92690 Data Bit 3 was in error and corrected
Oct 25 09:06:25 server SUNW,UltraSPARC-III: [ID 422650 kern.info][AFT2] errID 0x0000c9b9.19d92690 E$tag PA=0x00000000.00bdf7c0 does not match AFAR=0x00000001.04bdf7c0
Oct 25 09:06:25 server SUNW,UltraSPARC-III: [ID 904800 kern.info] [AFT2] errID 0x0000c9b9.19d92690 PA=0x00000000.00bdf7c0
Oct 25 09:06:25 server E$tag 0x00000000.01000001 E$state_7 Invalid
Oct 25 09:06:25 server SUNW,UltraSPARC-III: [ID 895151 kern.info] [AFT2] E$Data (0x00) 0x5a8d0016.00000a20 0x20202020.37333231 ECC 0x128
Oct 25 09:06:25 server SUNW,UltraSPARC-III: [ID 895151 kern.info] [AFT2] E$Data (0x10) 0x39062c00.5a8d0010 0x00000a20.20202020 ECC 0x03d
Oct 25 09:06:25 server SUNW,UltraSPARC-III: [ID 895151 kern.info] [AFT2] E$Data (0x20) 0x37333330.32062c00 0x5a8f000c.00000a20 ECC 0x1f6
Oct 25 09:06:25 server SUNW,UltraSPARC-III: [ID 895151 kern.info] [AFT2] E$Data (0x30) 0x20202020.37333330 0x34062c00.5a8f000d ECC 0x1fc
Oct 25 09:06:25 server SUNW,UltraSPARC-III: [ID 929717 kern.info] [AFT2] D$ data not available
Oct 25 09:06:25 server SUNW,UltraSPARC-III: [ID 335345 kern.info] [AFT2] I$ data not available

可以看出上述结果是由于一个简单的CE事件引发的,每一条信息都有AFT(asynchronous fault tag)标签,从第四行开始,AFT标记出现了不同的值:
·AFT0 用于可修复错误(used for correctable errors)
·AFT1 用于不可修复错误,也用于可以导致panic的错误
(for uncorrectable errors as well as for errors that result in panic)
·AFT2 用于诊断日志
·AFT3 其他有关于错误的信息

错误信息剖析如下:
[AFT0]Corrected system bus (CE) Event on CPU18 at TL=0, errID
0x0000c9b9.19d92690
AFSR 0x00000002<CE>.00000097 AFAR 0x00000001.04bdf7d0
Fault_PC 0x10024a74 Esynd 0x0097 /N0/SB5/P3/B0/D2 J16500
[AFT0] errID0x0000c9b9.19d92690 Corrected Memory Error on /N0/SB5/P3/
B0/D2 J16500 is Persistent
[AFT0] errID0x0000c9b9.19d92690 Data Bit 3 was in error and corrected

·errID :事件的时间戳,也叫事件的编号,当在同一时间发生多个故障时就需要使用,errID把一个故障的故障信息关联起来。
·AFSR和AFAR:asynchronous fault 状态和地址寄存器。
·Fault_PC:is value of the PC at the time of the fault and is depend upon the fault type as to whether the value is valid
·Esynd:ECC综合捕获(syndrome captured)。
·/N0/SB5/P3/B0/D2:故障内存模块的地址。
·J16500:内存模块中的J数字。
·Persistent :操作系统(SUN Solaris)关于故障的一个描述,这种描述总共有三种:Intermittent,Persistent,or Sticky关于这些描述的详细解释如下:
?Intermittent:说明在重复读写该位置上内存数据时,没有再次出现错误。(也就是内存自己纠正了数据)
?Persistent:说明在重复读写时在该位置上的内存数据再次出现了错误,需要系统操作可以纠正它。
?Sticky:说明系统操作纠正后,这个错误依然存在。这种情况下建议进行进一步的测试,确定该内存是不是需要更换,因为这种情况表示有硬件故障。
Dec 2 19:30:42 mail4.371.net unix: [AFT0] Multiple Softerrors:
Dec 2 19:30:42 mail4.371.net unix: 106 Intermittent, 144 Persistent, and 6 Sticky Softerrors accumulated
Dec 2 19:30:42 mail4.371.net unix: from Memory Module 1803
Dec 2 19:30:42 mail4.371.net unix: [AFT0] CONSIDER REPLACING THE MEMORY MODULE.

需要注意的是:在Solaris 8 KU-9版本,所有SunFire和Ultra Enterprise主机关于内存的错误,会把可纠正的内存错误信息提示到控制台并记录在messages文件中。在Solaris 8 KU-9以前的版本中,Ultra Enterprise中端服务器中关于单条内存的可纠正性错误在小于5是不会记录日志的(Enterprise 10000除外)。

论坛徽章:
0
15 [报告]
发表于 2011-01-08 16:25 |只看该作者
给力啊

论坛徽章:
0
16 [报告]
发表于 2011-01-08 21:59 |只看该作者
回复 14# 东方蜘蛛


    不行了,大侠,我想不出任何话来表达感激之情了,要的就是这个啊

论坛徽章:
10
处女座
日期:2015-01-22 16:08:50技术图书徽章
日期:2018-09-13 11:25:52技术图书徽章
日期:2018-09-13 11:25:45技术图书徽章
日期:2018-09-13 11:25:37技术图书徽章
日期:2018-09-13 11:25:29黑曼巴
日期:2018-06-04 09:03:192017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:03:402015年迎新春徽章
日期:2015-03-04 09:50:28技术图书徽章
日期:2018-09-13 11:26:01
17 [报告]
发表于 2011-01-09 13:54 |只看该作者
蜘蛛老大真带劲儿

论坛徽章:
0
18 [报告]
发表于 2011-01-10 16:36 |只看该作者
盘丝大仙,膜拜一下!

论坛徽章:
0
19 [报告]
发表于 2011-01-10 17:37 |只看该作者
膜拜一下啊

论坛徽章:
1
2015年亚洲杯之科威特
日期:2015-03-25 15:56:45
20 [报告]
发表于 2011-01-10 23:39 |只看该作者
八只脚的就是比咱两只脚的厉害
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP