- 论坛徽章:
- 6
|
回复 1# humjb_1983
经常遇到死机问题,总结下可分为如下几类:
1、系统无法正常调度,但还能响应中断,外在表现为:能ping通或是键盘灯能点亮,但系统无法登陆,无法操作。
2、软件问题导致系统挂死,不能响应中断,无任何反应。通常是内核panic或oops导致。
3、硬件问题导致系统挂死,不能响应中断,无任何反应。
对于1,分析定位相对简单,由于调度异常,系统日志可能无法记录,但是由于还能响应中断,通常可以采用sysrq组合键打印进程堆栈、cpu上下文、内存信息等,另外,内核自身的调测机制(比如watchdog)也能检测到相关异常,此类问题常见原因为硬盘故障、oom、softlockup等。
对于2,通过部署kdump和nmi_watchdog应能捕获vmcore,尚能定位问题。
对于3,对于内核能检测到的硬件错误,通常内核能捕获到相关信息,比如mce错误,IIO错误,但还有很多的致命硬件故障可能导致系统直接挂死(平时工作中遇到的案例比较多),内核无法检测到,对于这种故障通常束手无策,还请大家一起讨论下是否有相应的分析定位手段?另外,对于前两种故障,是否还有其他的高效定位手段,也请畅所欲言~
1. 有可能是协议栈出问题,导致网络(ssh)无法访问,但是可以通过键盘操作
2. 有些panic的问题,如果牵扯到内存跑飞或乱踩,那kdump定位的点并不一定是第一案发现场,这类问题比较头痛
|
|