windbadboy 发表于 2013-01-29 15:34

服务器无故死机

本帖最后由 windbadboy 于 2013-01-29 15:35 编辑

机型:DELL R710
OS:CENT 6.0 X64
机器主要做BT资源服务器,连接数高峰时期不到1000个,流量吞吐率100来M,有6块SAS 1T磁盘,IO也不高。
问题:服务器运行10多天就会出现DOWN机情况,接显示器无任何响应,只能重启;
已使用手段:
1、更新了最新的BROADCOM网卡驱动,问题依然;
2、查看/var/log/messages日志,没看出异常,只查到服务器无响应后,没有新日志生成,证明系统完全挂了。
3、如果不跑服务,服务器不会DOWN机。
请问还有没有什么方法查找到死机的原因?

刘彩霞 发表于 2013-01-30 09:54

在/proc/interrupts下查看系统的中断MCE的终端数量是否为0,如果不是0那就说明是有个MCE发生,参考一下/var/log/mcelog中内容或许会有帮助。

llzqq 发表于 2013-01-30 19:50

先升级到CENTOS6.3再说。

启胧数据 发表于 2013-02-27 13:27

本帖最后由 启胧数据 于 2013-02-27 13:27 编辑

1、BROADCOM网卡有一项功能是 空闲自动断网功能,不过基于死机状态,应该不是该功能影响的
2、服务器无故死机多出现在配有raid的服务器中,假如在存储过程中raid功能出现问题,也可引发服务器无故down机
3、检查服务器的硬盘接线和插拔内存,因服务器长期运作,所以可能造成某些硬件接触不良
4、如果以上方法都不能解决,建议关闭raid功能,观察是否还会down机,如果依旧宕机,那可能是硬盘存在问题。
启胧数据cn-p.com
页: [1]
查看完整版本: 服务器无故死机