- 论坛徽章:
- 0
|
配置:
HP dl360 g4
至强3.4双cpu
内存2G(2条1g,均不是hp原装内存,是市面上卖的mt镁光颗粒内存)
硬盘146G两块scsi raid1
现象:
一台HP dl360 g4总是不定时重启,有时一开机未进win2003系统就重启,开机后30分钟有时能重启4次。有时候重启后,系统自检过程中系统好像处于停滞状态,过10来秒屏幕会出现提示:
FATAL ROM ERROR:The System Rom is not properly programmed.
-Replace the physical ROM part.
-System Halted!
重启后,在bios中查看IML如下:
Event Class 0x0D:Automatic Server Recovery
Event Code 0x01:ASR Reset Occurred
Time Stamp:4/23/200,2:42
Serverity:Critical
重启后,在win2003中的HP proliant integrated management log viewer中查看IML如下:
ASR Detected by System ROM
Automatic Server Recovery
重启有可能发生在系统自检的时候,也可能发生在win2003系统或linux系统运行过程中。
判断:
1.首先排除是ASR automatic server recovery 的原因
在bios中关闭ASR,故障依旧,但重启的机率减小了很多,但依然有不定时重启现象。
2.然后怀疑是内存的问题
原来插有两条1G内存,拔去一条,留下一条,测试结果依然重启。
换过来只留下另一条,测试结果依然重启。
但用smartstart工具光盘多次进行硬件诊断,内存测试,没有发现问题。
后来又用专业的内存测试工具,memtest+ 在linux livecd 引导下对2g内存进行了测试,出现测试到10多分钟的时候重启的现象2次。
但奇怪的是,后来又用memtest+ 在linux livecd 引导下对4g内存又多次、时间达3个小时的memtest+测试,却没有发现问题,也没有出现重启现象。
但开机进入系统依然是无故重启。
最后,又买来两条相同的内存,换上,故障依旧,服务器还是无故重启。
四条同时插上,故障依旧,服务器还是无故重启。
四条存均用smartstart工具光盘多次进行硬件诊断,内存测试,没有发现问题。
四条存均用专业的内存测试工具,memtest+ 在linux livecd 引导下,内存测试,没有发现问题。
3.开始怀疑是双cpu功率过大、过热的问题
于是拆下一个cpu,测试重启问题依旧。
两个cpu换位置,测试重启问题依旧。
4.开始怀疑是电源的问题
于是又买来一个460W的相同电源(HP),换上电源,故障还是重启。
两个电源同时用上,故障还是重启。
5.迷惘中,怀疑是系统问题。
装了N次win2003和N次centos linux 系统,结果一样,都是不定时重启。
6.开始怀疑是静电的问题
服务器严格接好地线,导走静电,还是不行,故障还是重启。
7.开始怀疑是所在楼供电电路电压不稳的问题
搬到很远的一个公司,换了供电环境,故障还是不定时重启。
8.怀疑是用HP Firmware Maintenance CD Release 8.00光盘升级bios太高所致。目前的bios版本是proliant system bios - p52(07/16/2007)
于是又降回老版本的bios,问题还是不定时重启。
9.对了,还有一点,就是在用smartstart工具光盘多次进行硬件诊断测试时,发现其中的一块 146G scsi硬盘有一项测试通不过:
hard drive short offline selftest 这项总是失败,而另一块同样的scsi硬盘就能通过测试。
error code
653423
clss driver report problem.
seagate ST3146707LC;cisso:
target status check condition:Illegal
request:field offset=1:invalid
field in CDB SCSI CDB=[.......略]
不定时重启,应该和这个错误没有关系吧?
请各位同仁,工程师帮我找一下问题。实在是太迷惘了。
此服务器已经没有金牌服务。全部靠自己搞定。
接下来我应该如何找问题?是换主板还是换hp原装内存?因为没有备件在手上。只能通过购买来测试,我是先买主板还是先买内存?
有没有其它可能的问题?
真诚的希望各位能帮助我。这个问题实在是太头痛了。 |
|