免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 17239 | 回复: 11
打印 上一主题 下一主题

高性能计算服务器故障 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-10-20 18:13 |只看该作者 |倒序浏览
    我们的曙光高性能计算服务器集群中的管理节点经常性的死机,现象为黑屏,敲键盘无反应,ping不通。其他节点运行正常,已经持续几个月了,曙光的工程师过来给我们把除了cpu之外的设备全换了之后还是出现这种情况,有没有高手能提点建议或者相关解决办法?谢谢!(系统安装的为RHEL6.2,期间还安装过CentOS6.4,都出现同样情况)

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
2 [报告]
发表于 2013-10-20 18:58 来自手机 |只看该作者
他们定制的os吧?

论坛徽章:
0
3 [报告]
发表于 2013-10-20 19:02 |只看该作者
不是,他们本身自带的是suse,但是我们这个项目要求RHEL或者CentOS,所以就重新装的系统回复 2# wenhq


   

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
4 [报告]
发表于 2013-10-20 19:43 来自手机 |只看该作者
那你的看硬件的说明文档了,兼容性没问题?

论坛徽章:
0
5 [报告]
发表于 2013-10-20 20:11 |只看该作者
其他的节点也是安装的同样的系统,运行几个月了都正常,除了这一个节点,看日志没发现异常回复 4# wenhq


   

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
6 [报告]
发表于 2013-10-20 22:09 |只看该作者
回复 5# hujianghua2012



恩这个也不能说明兼容性没问题
   

论坛徽章:
2
摩羯座
日期:2014-05-26 12:02:462015年辞旧岁徽章
日期:2015-03-03 16:54:15
7 [报告]
发表于 2013-10-27 19:43 |只看该作者
你看freebsd可以做不?试试看。

论坛徽章:
0
8 [报告]
发表于 2013-10-28 23:41 |只看该作者
回复 1# hujianghua2012


    你让厂家工程师把cpu和散热器中间的硅胶换一下。估计是cpu的散热不够,某个cpu温度瞬间过高。服务器自我保护死机。

论坛徽章:
71
15-16赛季CBA联赛之同曦
日期:2018-08-23 15:41:42辰龙
日期:2014-08-15 09:07:43狮子座
日期:2014-06-03 13:55:33亥猪
日期:2014-06-02 11:17:08巨蟹座
日期:2014-05-06 10:02:03午马
日期:2014-05-04 08:18:27亥猪
日期:2014-04-29 11:11:32技术图书徽章
日期:2014-04-24 15:51:26技术图书徽章
日期:2014-04-17 11:01:53辰龙
日期:2014-04-15 12:45:46亥猪
日期:2014-04-11 09:06:23射手座
日期:2014-04-01 15:28:10
9 [报告]
发表于 2013-11-12 17:33 |只看该作者
硬件软件不兼容

论坛徽章:
48
15-16赛季CBA联赛之青岛
日期:2021-01-07 13:41:2315-16赛季CBA联赛之上海
日期:2020-12-01 18:02:0720周年集字徽章-20	
日期:2020-10-28 14:14:2620周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之天津
日期:2020-10-18 22:51:412016猴年福章徽章
日期:2016-02-18 15:30:3415-16赛季CBA联赛之北控
日期:2015-12-22 13:30:48操作系统版块每日发帖之星
日期:2015-12-07 06:20:00操作系统版块每日发帖之星
日期:2015-09-04 06:20:002015亚冠之德黑兰石油
日期:2015-08-05 18:46:082015年亚洲杯之巴勒斯坦
日期:2015-04-19 10:42:502015年亚洲杯之巴林
日期:2015-04-09 08:03:23
10 [报告]
发表于 2013-11-16 11:33 |只看该作者
这种症状觉得是宕机吧,能否硬件触发生成dump(专门的小按钮)?如果可以的话就能查一下那个时候是否内存爆满了之类。另外8#说的也可以尝试一下。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP