Chinaunix

标题: 求助:HP dl360 g4 不定时重启的怪现象(两个月,试过N次方案解决不了的超级头痛问题) [打印本页]

作者: bingzhou01    时间: 2008-07-14 14:20
标题: 求助:HP dl360 g4 不定时重启的怪现象(两个月,试过N次方案解决不了的超级头痛问题)
配置:
HP dl360 g4
至强3.4双cpu
内存2G(2条1g,均不是hp原装内存,是市面上卖的mt镁光颗粒内存)
硬盘146G两块scsi raid1

现象:
一台HP dl360 g4总是不定时重启,有时一开机未进win2003系统就重启,开机后30分钟有时能重启4次。有时候重启后,系统自检过程中系统好像处于停滞状态,过10来秒屏幕会出现提示:
FATAL ROM ERROR:The System Rom is not properly programmed.
-Replace the physical ROM part.
-System Halted!
重启后,在bios中查看IML如下:
Event Class 0x0D:Automatic Server Recovery
Event Code 0x01:ASR Reset Occurred
Time Stamp:4/23/200,2:42
Serverity:Critical
重启后,在win2003中的HP proliant integrated management log viewer中查看IML如下:
ASR Detected by System ROM
Automatic Server Recovery
重启有可能发生在系统自检的时候,也可能发生在win2003系统或linux系统运行过程中。

判断:

1.首先排除是ASR automatic server recovery 的原因
在bios中关闭ASR,故障依旧,但重启的机率减小了很多,但依然有不定时重启现象。

2.然后怀疑是内存的问题
原来插有两条1G内存,拔去一条,留下一条,测试结果依然重启。
换过来只留下另一条,测试结果依然重启。
但用smartstart工具光盘多次进行硬件诊断,内存测试,没有发现问题。
后来又用专业的内存测试工具,memtest+ 在linux livecd 引导下对2g内存进行了测试,出现测试到10多分钟的时候重启的现象2次。
但奇怪的是,后来又用memtest+ 在linux livecd 引导下对4g内存又多次、时间达3个小时的memtest+测试,却没有发现问题,也没有出现重启现象。
但开机进入系统依然是无故重启。
最后,又买来两条相同的内存,换上,故障依旧,服务器还是无故重启。
四条同时插上,故障依旧,服务器还是无故重启。
四条存均用smartstart工具光盘多次进行硬件诊断,内存测试,没有发现问题。
四条存均用专业的内存测试工具,memtest+ 在linux livecd 引导下,内存测试,没有发现问题。
3.开始怀疑是双cpu功率过大、过热的问题
于是拆下一个cpu,测试重启问题依旧。
两个cpu换位置,测试重启问题依旧。
4.开始怀疑是电源的问题
于是又买来一个460W的相同电源(HP),换上电源,故障还是重启。
两个电源同时用上,故障还是重启。
5.迷惘中,怀疑是系统问题。
装了N次win2003和N次centos linux 系统,结果一样,都是不定时重启。
6.开始怀疑是静电的问题
服务器严格接好地线,导走静电,还是不行,故障还是重启。
7.开始怀疑是所在楼供电电路电压不稳的问题
搬到很远的一个公司,换了供电环境,故障还是不定时重启。

8.怀疑是用HP Firmware Maintenance CD Release 8.00光盘升级bios太高所致。目前的bios版本是proliant system bios - p52(07/16/2007)
于是又降回老版本的bios,问题还是不定时重启。
9.对了,还有一点,就是在用smartstart工具光盘多次进行硬件诊断测试时,发现其中的一块 146G scsi硬盘有一项测试通不过:
hard drive short offline selftest 这项总是失败,而另一块同样的scsi硬盘就能通过测试。
error code
653423
clss driver report problem.
seagate ST3146707LC;cisso:
target status check condition:Illegal
request:field offset=1:invalid
field in CDB SCSI CDB=[.......略]
不定时重启,应该和这个错误没有关系吧?
请各位同仁,工程师帮我找一下问题。实在是太迷惘了。
此服务器已经没有金牌服务。全部靠自己搞定。
接下来我应该如何找问题?是换主板还是换hp原装内存?因为没有备件在手上。只能通过购买来测试,我是先买主板还是先买内存?

有没有其它可能的问题?
真诚的希望各位能帮助我。这个问题实在是太头痛了。

serverfail1.JPG (43.32 KB, 下载次数: 35)

serverfail1.JPG

serverfail2.JPG (68.47 KB, 下载次数: 36)

serverfail2.JPG

serverfail3.JPG (52.17 KB, 下载次数: 36)

serverfail3.JPG

serverfail4.JPG (66.73 KB, 下载次数: 35)

serverfail4.JPG

serverfail5.JPG (106.67 KB, 下载次数: 40)

serverfail5.JPG

作者: shawnlee    时间: 2008-07-14 16:45
提示: 作者被禁止或删除 内容自动屏蔽
作者: bingzhou01    时间: 2008-07-16 20:38
顶一下,同行们帮忙看一下
作者: shawnlee    时间: 2008-07-17 08:37
提示: 作者被禁止或删除 内容自动屏蔽




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2