免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 9483 | 回复: 3
打印 上一主题 下一主题

求助:HP dl360 g4 不定时重启的怪现象(两个月,试过N次方案解决不了的超级头痛问题) [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-07-14 14:20 |只看该作者 |倒序浏览
配置:
HP dl360 g4
至强3.4双cpu
内存2G(2条1g,均不是hp原装内存,是市面上卖的mt镁光颗粒内存)
硬盘146G两块scsi raid1

现象:
一台HP dl360 g4总是不定时重启,有时一开机未进win2003系统就重启,开机后30分钟有时能重启4次。有时候重启后,系统自检过程中系统好像处于停滞状态,过10来秒屏幕会出现提示:
FATAL ROM ERROR:The System Rom is not properly programmed.
-Replace the physical ROM part.
-System Halted!
重启后,在bios中查看IML如下:
Event Class 0x0D:Automatic Server Recovery
Event Code 0x01:ASR Reset Occurred
Time Stamp:4/23/200,2:42
Serverity:Critical
重启后,在win2003中的HP proliant integrated management log viewer中查看IML如下:
ASR Detected by System ROM
Automatic Server Recovery
重启有可能发生在系统自检的时候,也可能发生在win2003系统或linux系统运行过程中。

判断:

1.首先排除是ASR automatic server recovery 的原因
在bios中关闭ASR,故障依旧,但重启的机率减小了很多,但依然有不定时重启现象。

2.然后怀疑是内存的问题
原来插有两条1G内存,拔去一条,留下一条,测试结果依然重启。
换过来只留下另一条,测试结果依然重启。
但用smartstart工具光盘多次进行硬件诊断,内存测试,没有发现问题。
后来又用专业的内存测试工具,memtest+ 在linux livecd 引导下对2g内存进行了测试,出现测试到10多分钟的时候重启的现象2次。
但奇怪的是,后来又用memtest+ 在linux livecd 引导下对4g内存又多次、时间达3个小时的memtest+测试,却没有发现问题,也没有出现重启现象。
但开机进入系统依然是无故重启。
最后,又买来两条相同的内存,换上,故障依旧,服务器还是无故重启。
四条同时插上,故障依旧,服务器还是无故重启。
四条存均用smartstart工具光盘多次进行硬件诊断,内存测试,没有发现问题。
四条存均用专业的内存测试工具,memtest+ 在linux livecd 引导下,内存测试,没有发现问题。
3.开始怀疑是双cpu功率过大、过热的问题
于是拆下一个cpu,测试重启问题依旧。
两个cpu换位置,测试重启问题依旧。
4.开始怀疑是电源的问题
于是又买来一个460W的相同电源(HP),换上电源,故障还是重启。
两个电源同时用上,故障还是重启。
5.迷惘中,怀疑是系统问题。
装了N次win2003和N次centos linux 系统,结果一样,都是不定时重启。
6.开始怀疑是静电的问题
服务器严格接好地线,导走静电,还是不行,故障还是重启。
7.开始怀疑是所在楼供电电路电压不稳的问题
搬到很远的一个公司,换了供电环境,故障还是不定时重启。

8.怀疑是用HP Firmware Maintenance CD Release 8.00光盘升级bios太高所致。目前的bios版本是proliant system bios - p52(07/16/2007)
于是又降回老版本的bios,问题还是不定时重启。
9.对了,还有一点,就是在用smartstart工具光盘多次进行硬件诊断测试时,发现其中的一块 146G scsi硬盘有一项测试通不过:
hard drive short offline selftest 这项总是失败,而另一块同样的scsi硬盘就能通过测试。
error code
653423
clss driver report problem.
seagate ST3146707LC;cisso:
target status check condition:Illegal
request:field offset=1:invalid
field in CDB SCSI CDB=[.......略]
不定时重启,应该和这个错误没有关系吧?
请各位同仁,工程师帮我找一下问题。实在是太迷惘了。
此服务器已经没有金牌服务。全部靠自己搞定。
接下来我应该如何找问题?是换主板还是换hp原装内存?因为没有备件在手上。只能通过购买来测试,我是先买主板还是先买内存?

有没有其它可能的问题?
真诚的希望各位能帮助我。这个问题实在是太头痛了。

serverfail1.JPG (43.32 KB, 下载次数: 35)

serverfail1.JPG

serverfail2.JPG (68.47 KB, 下载次数: 36)

serverfail2.JPG

serverfail3.JPG (52.17 KB, 下载次数: 36)

serverfail3.JPG

serverfail4.JPG (66.73 KB, 下载次数: 35)

serverfail4.JPG

serverfail5.JPG (106.67 KB, 下载次数: 40)

serverfail5.JPG

论坛徽章:
0
2 [报告]
发表于 2008-07-14 16:45 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
3 [报告]
发表于 2008-07-16 20:38 |只看该作者
顶一下,同行们帮忙看一下

论坛徽章:
0
4 [报告]
发表于 2008-07-17 08:37 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP