免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3398 | 回复: 10
打印 上一主题 下一主题

[其他] 讨论:死机的定位方法 [复制链接]

论坛徽章:
15
射手座
日期:2014-02-26 13:45:082015年迎新春徽章
日期:2015-03-04 09:54:452015年辞旧岁徽章
日期:2015-03-03 16:54:15羊年新春福章
日期:2015-02-26 08:47:552015年亚洲杯之卡塔尔
日期:2015-02-03 08:33:45射手座
日期:2014-12-31 08:36:51水瓶座
日期:2014-06-04 08:33:52天蝎座
日期:2014-05-14 14:30:41天秤座
日期:2014-04-21 08:37:08处女座
日期:2014-04-18 16:57:05戌狗
日期:2014-04-04 12:21:33技术图书徽章
日期:2014-03-25 09:00:29
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-01-07 12:12 |只看该作者 |倒序浏览
本帖最后由 humjb_1983 于 2014-01-07 12:13 编辑

经常遇到死机问题,总结下可分为如下几类:
1、系统无法正常调度,但还能响应中断,外在表现为:能ping通或是键盘灯能点亮,但系统无法登陆,无法操作。
2、软件问题导致系统挂死,不能响应中断,无任何反应。通常是内核panic或oops导致。
3、硬件问题导致系统挂死,不能响应中断,无任何反应。
对于1,分析定位相对简单,由于调度异常,系统日志可能无法记录,但是由于还能响应中断,通常可以采用sysrq组合键打印进程堆栈、cpu上下文、内存信息等,另外,内核自身的调测机制(比如watchdog)也能检测到相关异常,此类问题常见原因为硬盘故障、oom、softlockup等。
对于2,通过部署kdump和nmi_watchdog应能捕获vmcore,尚能定位问题。
对于3,对于内核能检测到的硬件错误,通常内核能捕获到相关信息,比如mce错误,IIO错误,但还有很多的致命硬件故障可能导致系统直接挂死(平时工作中遇到的案例比较多),内核无法检测到,对于这种故障通常束手无策,还请大家一起讨论下是否有相应的分析定位手段?另外,对于前两种故障,是否还有其他的高效定位手段,也请畅所欲言~

评分

参与人数 1可用积分 +2 收起 理由
embeddedlwp + 2 赞一个!

查看全部评分

论坛徽章:
6
金牛座
日期:2013-10-08 10:19:10技术图书徽章
日期:2013-10-14 16:24:09CU十二周年纪念徽章
日期:2013-10-24 15:41:34狮子座
日期:2013-11-24 19:26:19未羊
日期:2014-01-23 15:50:002015年亚洲杯之阿联酋
日期:2015-05-09 14:36:15
2 [报告]
发表于 2014-01-07 14:25 |只看该作者
回复 1# humjb_1983
经常遇到死机问题,总结下可分为如下几类:
1、系统无法正常调度,但还能响应中断,外在表现为:能ping通或是键盘灯能点亮,但系统无法登陆,无法操作。
2、软件问题导致系统挂死,不能响应中断,无任何反应。通常是内核panic或oops导致。
3、硬件问题导致系统挂死,不能响应中断,无任何反应。
对于1,分析定位相对简单,由于调度异常,系统日志可能无法记录,但是由于还能响应中断,通常可以采用sysrq组合键打印进程堆栈、cpu上下文、内存信息等,另外,内核自身的调测机制(比如watchdog)也能检测到相关异常,此类问题常见原因为硬盘故障、oom、softlockup等。
对于2,通过部署kdump和nmi_watchdog应能捕获vmcore,尚能定位问题。
对于3,对于内核能检测到的硬件错误,通常内核能捕获到相关信息,比如mce错误,IIO错误,但还有很多的致命硬件故障可能导致系统直接挂死(平时工作中遇到的案例比较多),内核无法检测到,对于这种故障通常束手无策,还请大家一起讨论下是否有相应的分析定位手段?另外,对于前两种故障,是否还有其他的高效定位手段,也请畅所欲言~


1. 有可能是协议栈出问题,导致网络(ssh)无法访问,但是可以通过键盘操作
2. 有些panic的问题,如果牵扯到内存跑飞或乱踩,那kdump定位的点并不一定是第一案发现场,这类问题比较头痛

   

论坛徽章:
1
天蝎座
日期:2013-10-23 21:11:03
3 [报告]
发表于 2014-01-07 14:58 |只看该作者
回复 2# 瀚海书香


   确实, kdump 捕获的多半不是第一现场,一般这样的 bug 只能顺着 backtrace 加 YY 来找了,牛除外

论坛徽章:
0
4 [报告]
发表于 2014-01-07 15:51 |只看该作者
我就会看系统日志 可是有时候死机的时候日志打印不出来怎么办

论坛徽章:
15
射手座
日期:2014-02-26 13:45:082015年迎新春徽章
日期:2015-03-04 09:54:452015年辞旧岁徽章
日期:2015-03-03 16:54:15羊年新春福章
日期:2015-02-26 08:47:552015年亚洲杯之卡塔尔
日期:2015-02-03 08:33:45射手座
日期:2014-12-31 08:36:51水瓶座
日期:2014-06-04 08:33:52天蝎座
日期:2014-05-14 14:30:41天秤座
日期:2014-04-21 08:37:08处女座
日期:2014-04-18 16:57:05戌狗
日期:2014-04-04 12:21:33技术图书徽章
日期:2014-03-25 09:00:29
5 [报告]
发表于 2014-01-07 16:23 |只看该作者
瀚海书香 发表于 2014-01-07 14:25
回复 1# humjb_1983

1. 有可能是协议栈出问题,导致网络(ssh)无法访问,但是可以通过键盘操作
----- 对的,这种问题通常比较好办,打内核堆栈,再进行分析,还可以在线调试~

2. 有些panic的问题,如果牵扯到内存跑飞或乱踩,那kdump定位的点并不一定是第一案发现场,这类问题比较头痛
----- 同感,这种问题比较麻烦,只能根据内存、寄存器和其他相关进程的堆栈和内存分布等信息抽丝剥茧一步步来了,这个时候要靠经验、对相关流程的理解程度、甚至人品了。

论坛徽章:
15
射手座
日期:2014-02-26 13:45:082015年迎新春徽章
日期:2015-03-04 09:54:452015年辞旧岁徽章
日期:2015-03-03 16:54:15羊年新春福章
日期:2015-02-26 08:47:552015年亚洲杯之卡塔尔
日期:2015-02-03 08:33:45射手座
日期:2014-12-31 08:36:51水瓶座
日期:2014-06-04 08:33:52天蝎座
日期:2014-05-14 14:30:41天秤座
日期:2014-04-21 08:37:08处女座
日期:2014-04-18 16:57:05戌狗
日期:2014-04-04 12:21:33技术图书徽章
日期:2014-03-25 09:00:29
6 [报告]
发表于 2014-01-07 16:27 |只看该作者
openspace 发表于 2014-01-07 14:58
回复 2# 瀚海书香

大多数情况,kdump信息还是比较有用的,vmcore已经是内核能搜集的最详细的信息了,对于这种问题看似没有好的办法能抓到第一现场。

论坛徽章:
15
射手座
日期:2014-02-26 13:45:082015年迎新春徽章
日期:2015-03-04 09:54:452015年辞旧岁徽章
日期:2015-03-03 16:54:15羊年新春福章
日期:2015-02-26 08:47:552015年亚洲杯之卡塔尔
日期:2015-02-03 08:33:45射手座
日期:2014-12-31 08:36:51水瓶座
日期:2014-06-04 08:33:52天蝎座
日期:2014-05-14 14:30:41天秤座
日期:2014-04-21 08:37:08处女座
日期:2014-04-18 16:57:05戌狗
日期:2014-04-04 12:21:33技术图书徽章
日期:2014-03-25 09:00:29
7 [报告]
发表于 2014-01-07 16:29 |只看该作者
hellolfh 发表于 2014-01-07 15:51
我就会看系统日志 可是有时候死机的时候日志打印不出来怎么办

最有用的应该是接串口,死机的时候syslog很可能不能正常调度或运行,但相关信息会直接打印到终端上。

论坛徽章:
7
丑牛
日期:2013-10-18 14:43:21技术图书徽章
日期:2013-11-03 09:58:03辰龙
日期:2014-01-15 22:57:50午马
日期:2014-09-15 07:04:39丑牛
日期:2014-10-16 14:25:222015年亚洲杯之伊朗
日期:2015-03-16 10:24:352015亚冠之城南
日期:2015-05-31 09:52:32
8 [报告]
发表于 2014-01-08 12:34 |只看该作者
非第一现场很难,即便是在用户空间

论坛徽章:
15
射手座
日期:2014-02-26 13:45:082015年迎新春徽章
日期:2015-03-04 09:54:452015年辞旧岁徽章
日期:2015-03-03 16:54:15羊年新春福章
日期:2015-02-26 08:47:552015年亚洲杯之卡塔尔
日期:2015-02-03 08:33:45射手座
日期:2014-12-31 08:36:51水瓶座
日期:2014-06-04 08:33:52天蝎座
日期:2014-05-14 14:30:41天秤座
日期:2014-04-21 08:37:08处女座
日期:2014-04-18 16:57:05戌狗
日期:2014-04-04 12:21:33技术图书徽章
日期:2014-03-25 09:00:29
9 [报告]
发表于 2014-01-08 12:50 |只看该作者
smalloc 发表于 2014-01-08 12:34
非第一现场很难,即便是在用户空间

确实如此,看来这是公认的难题,用户态目前还能有一些辅助工具(比如内存越界以及跟踪工具)帮助定位问题。

论坛徽章:
0
10 [报告]
发表于 2014-01-08 17:15 |只看该作者
1、系统无法正常调度,但还能响应中断,外在表现为:能ping通或是键盘灯能点亮,但系统无法登陆,无法操作。
-》
1)需要进机房,一般不太容易有些麻烦,除非服务器就在你公司内部。
2)接键盘之后也无法登录的情况也有,这时也不容易定位啊
实际工作中,这类问题基本没有搞定过。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP