免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3412 | 回复: 0
打印 上一主题 下一主题

[其他] 讨论:死机的定位方法 [复制链接]

论坛徽章:
6
金牛座
日期:2013-10-08 10:19:10技术图书徽章
日期:2013-10-14 16:24:09CU十二周年纪念徽章
日期:2013-10-24 15:41:34狮子座
日期:2013-11-24 19:26:19未羊
日期:2014-01-23 15:50:002015年亚洲杯之阿联酋
日期:2015-05-09 14:36:15
1 [报告]
发表于 2014-01-07 14:25 |显示全部楼层
回复 1# humjb_1983
经常遇到死机问题,总结下可分为如下几类:
1、系统无法正常调度,但还能响应中断,外在表现为:能ping通或是键盘灯能点亮,但系统无法登陆,无法操作。
2、软件问题导致系统挂死,不能响应中断,无任何反应。通常是内核panic或oops导致。
3、硬件问题导致系统挂死,不能响应中断,无任何反应。
对于1,分析定位相对简单,由于调度异常,系统日志可能无法记录,但是由于还能响应中断,通常可以采用sysrq组合键打印进程堆栈、cpu上下文、内存信息等,另外,内核自身的调测机制(比如watchdog)也能检测到相关异常,此类问题常见原因为硬盘故障、oom、softlockup等。
对于2,通过部署kdump和nmi_watchdog应能捕获vmcore,尚能定位问题。
对于3,对于内核能检测到的硬件错误,通常内核能捕获到相关信息,比如mce错误,IIO错误,但还有很多的致命硬件故障可能导致系统直接挂死(平时工作中遇到的案例比较多),内核无法检测到,对于这种故障通常束手无策,还请大家一起讨论下是否有相应的分析定位手段?另外,对于前两种故障,是否还有其他的高效定位手段,也请畅所欲言~


1. 有可能是协议栈出问题,导致网络(ssh)无法访问,但是可以通过键盘操作
2. 有些panic的问题,如果牵扯到内存跑飞或乱踩,那kdump定位的点并不一定是第一案发现场,这类问题比较头痛

   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP