免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 7471 | 回复: 16
打印 上一主题 下一主题

死机故障分析(有日志) [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2005-10-28 12:33 |只看该作者 |倒序浏览
一台跑rh 8的服务器近期三次意外死机,怀疑有硬件故障,查看/var/log下的dmesg看到唯一的错误如下,高手们帮看看是何错误,我觉得可能是CPU或者是内存的问题:
testing the IO APIC.......................

IO APIC #2......
.... register #00: 02008000
.......    : physical APIC id: 02
An unexpected IO-APIC was found. If this kernel release is less than
three months old please report this to linux-smp@vger.kernel.org
.... register #01: 00178020
.......     : max redirection entries: 0017
.......     : PRQ implemented: 1
.......     : IO APIC version: 0020
.... register #02: 00000000
.......     : arbitration: 00
.... IRQ redirection table:
NR Log Phy Mask Trig IRR Pol Stat Dest Deli Vect:   
00 000 00  1    0    0   0   0    0    0    00
01 0FF 0F  0    0    0   0   0    1    1    39
02 0FF 0F  0    0    0   0   0    1    1    31
03 0FF 0F  0    0    0   0   0    1    1    41
04 0FF 0F  0    0    0   0   0    1    1    49
05 000 00  1    0    0   0   0    0    0    00
06 0FF 0F  0    0    0   0   0    1    1    51
07 0FF 0F  0    0    0   0   0    1    1    59
08 0FF 0F  0    0    0   0   0    1    1    61
09 0FF 0F  0    0    0   0   0    1    1    69
0a 000 00  1    0    0   0   0    0    0    00
0b 000 00  1    0    0   0   0    0    0    00
0c 0FF 0F  0    0    0   0   0    1    1    71
0d 0FF 0F  0    0    0   0   0    1    1    79
0e 0FF 0F  0    0    0   0   0    1    1    81
0f 0FF 0F  0    0    0   0   0    1    1    89
10 0FF 0F  1    1    0   1   0    1    1    91
11 0FF 0F  1    1    0   1   0    1    1    99
12 000 00  1    0    0   0   0    0    0    00
13 0FF 0F  1    1    0   1   0    1    1    A1
14 0FF 0F  1    1    0   1   0    1    1    A9
15 0FF 0F  1    1    0   1   0    1    1    B1
16 000 00  1    0    0   0   0    0    0    00
17 0FF 0F  1    1    0   1   0    1    1    B9

IO APIC #3......
.... register #00: 03000000
.......    : physical APIC id: 03
.... register #01: 00178020
.......     : max redirection entries: 0017
.......     : PRQ implemented: 1
.......     : IO APIC version: 0020
.... register #02: 03000000
.......     : arbitration: 03
.... IRQ redirection table:
NR Log Phy Mask Trig IRR Pol Stat Dest Deli Vect:   
00 000 00  1    0    0   0   0    0    0    00
01 000 00  1    0    0   0   0    0    0    00
02 000 00  1    0    0   0   0    0    0    00
03 000 00  1    0    0   0   0    0    0    00
04 000 00  1    0    0   0   0    0    0    00
05 000 00  1    0    0   0   0    0    0    00
06 000 00  1    0    0   0   0    0    0    00
07 000 00  1    0    0   0   0    0    0    00
08 000 00  1    0    0   0   0    0    0    00
09 000 00  1    0    0   0   0    0    0    00
0a 000 00  1    0    0   0   0    0    0    00
0b 000 00  1    0    0   0   0    0    0    00
0c 000 00  1    0    0   0   0    0    0    00
0d 000 00  1    0    0   0   0    0    0    00
0e 000 00  1    0    0   0   0    0    0    00
0f 000 00  1    0    0   0   0    0    0    00
10 000 00  1    0    0   0   0    0    0    00
11 000 00  1    0    0   0   0    0    0    00
12 000 00  1    0    0   0   0    0    0    00
13 000 00  1    0    0   0   0    0    0    00
14 000 00  1    0    0   0   0    0    0    00
15 000 00  1    0    0   0   0    0    0    00
16 000 00  1    0    0   0   0    0    0    00
17 000 00  1    0    0   0   0    0    0    00

IO APIC #4......
.... register #00: 04000000
.......    : physical APIC id: 04
.... register #01: 00178020
.......     : max redirection entries: 0017
.......     : PRQ implemented: 1
.......     : IO APIC version: 0020
.... register #02: 04000000
.......     : arbitration: 04
.... IRQ redirection table:
NR Log Phy Mask Trig IRR Pol Stat Dest Deli Vect:   
00 000 00  1    0    0   0   0    0    0    00
01 000 00  1    0    0   0   0    0    0    00
02 000 00  1    0    0   0   0    0    0    00
03 000 00  1    0    0   0   0    0    0    00
04 000 00  1    0    0   0   0    0    0    00
05 000 00  1    0    0   0   0    0    0    00
06 000 00  1    0    0   0   0    0    0    00
07 000 00  1    0    0   0   0    0    0    00
08 000 00  1    0    0   0   0    0    0    00
09 000 00  1    0    0   0   0    0    0    00
0a 000 00  1    0    0   0   0    0    0    00
0b 000 00  1    0    0   0   0    0    0    00
0c 000 00  1    0    0   0   0    0    0    00
0d 000 00  1    0    0   0   0    0    0    00
0e 000 00  1    0    0   0   0    0    0    00
0f 000 00  1    0    0   0   0    0    0    00
10 000 00  1    0    0   0   0    0    0    00
11 000 00  1    0    0   0   0    0    0    00
12 000 00  1    0    0   0   0    0    0    00
13 000 00  1    0    0   0   0    0    0    00
14 000 00  1    0    0   0   0    0    0    00
15 000 00  1    0    0   0   0    0    0    00
16 000 00  1    0    0   0   0    0    0    00
17 000 00  1    0    0   0   0    0    0    00
IRQ to pin mappings:
IRQ0 ->; 0:2
IRQ1 ->; 0:1
IRQ3 ->; 0:3
IRQ4 ->; 0:4
IRQ6 ->; 0:6
IRQ7 ->; 0:7
IRQ8 ->; 0:8
IRQ9 ->; 0:9
IRQ12 ->; 0:12
IRQ13 ->; 0:13
IRQ14 ->; 0:14
IRQ15 ->; 0:15
IRQ16 ->; 0:16
IRQ17 ->; 0:17
IRQ19 ->; 0:19
IRQ20 ->; 0:20
IRQ21 ->; 0:21
IRQ23 ->; 0:23
.................................... done.

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
2 [报告]
发表于 2005-10-28 12:35 |只看该作者

死机故障分析(有日志)

这个好象不算错吧?

还有别的么?

论坛徽章:
0
3 [报告]
发表于 2005-10-28 13:35 |只看该作者

死机故障分析(有日志)

第一次出现个这样的: /var/log/messages (scanned at 日 10月  9 07:15:11 CST 2005)
Oct  9 07:04:45 smsgate kernel: WARNING: No sibling found for CPU 2.
难道是CPU坏了一个?第三次看到没这个错误了

论坛徽章:
0
4 [报告]
发表于 2005-10-28 14:27 |只看该作者

死机故障分析(有日志)

有人在吗?

论坛徽章:
0
5 [报告]
发表于 2005-10-28 14:33 |只看该作者

死机故障分析(有日志)

详细罗列你的CPU信息,包括谁生产的、一共几个,是否支持超线程、双核;还有主板,主板是否是支持SMP的。

rh8跑的是自己编译的内核,还是原来的内核。

上面的信息是引导时出现的,还是运行时出现的。

论坛徽章:
0
6 [报告]
发表于 2005-10-28 14:35 |只看该作者

死机故障分析(有日志)

你的信息还不够全,能否把相关的日志(不要中间省略)贴出来?

论坛徽章:
0
7 [报告]
发表于 2005-10-28 15:40 |只看该作者

死机故障分析(有日志)

CPU 是INTEL的,双P4至强,支持超线程,非双核,主板当然是支持SMP的,服务器已经跑了3年了。第一批信息是启动后用dmesg看到的,后面那条是messages 里的错误。RH8是原来的内核,升级到了Linux  2.4.20-20.8smp #1 SMP。还需要什么日志?

论坛徽章:
0
8 [报告]
发表于 2005-10-28 16:28 |只看该作者

死机故障分析(有日志)

我遇到过类似情况,打扫了灰尘,擦了擦内存又没事了

论坛徽章:
0
9 [报告]
发表于 2005-10-28 16:34 |只看该作者

死机故障分析(有日志)

电信机房,找点灰尘还真困难,内存因为湿度问题生锈的可能性也很小

论坛徽章:
0
10 [报告]
发表于 2005-10-28 16:51 |只看该作者

死机故障分析(有日志)

你在启动时加入ACPI=off看看
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP