免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3784 | 回复: 10
打印 上一主题 下一主题

[进程管理] 什么情况下CPU会自动复位 [复制链接]

论坛徽章:
9
程序设计版块每日发帖之星
日期:2016-02-13 06:20:00数据库技术版块每日发帖之星
日期:2016-06-15 06:20:00数据库技术版块每日发帖之星
日期:2016-06-16 06:20:00数据库技术版块每日发帖之星
日期:2016-06-18 06:20:00程序设计版块每日发帖之星
日期:2016-06-27 06:20:00程序设计版块每日发帖之星
日期:2016-07-09 06:20:00IT运维版块每日发帖之星
日期:2016-07-15 06:20:00IT运维版块每日发帖之星
日期:2016-07-27 06:20:00程序设计版块每日发帖之星
日期:2016-08-18 06:20:00
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-11-18 21:52 |只看该作者 |倒序浏览
X86, 总是跑着跑着CPU复位了,没有任何异常和打印,温度也不高,系统就重新起来了

论坛徽章:
15
射手座
日期:2014-02-26 13:45:082015年迎新春徽章
日期:2015-03-04 09:54:452015年辞旧岁徽章
日期:2015-03-03 16:54:15羊年新春福章
日期:2015-02-26 08:47:552015年亚洲杯之卡塔尔
日期:2015-02-03 08:33:45射手座
日期:2014-12-31 08:36:51水瓶座
日期:2014-06-04 08:33:52天蝎座
日期:2014-05-14 14:30:41天秤座
日期:2014-04-21 08:37:08处女座
日期:2014-04-18 16:57:05戌狗
日期:2014-04-04 12:21:33技术图书徽章
日期:2014-03-25 09:00:29
2 [报告]
发表于 2013-11-19 09:07 |只看该作者
mordorwww 发表于 2013-11-18 21:52
X86, 总是跑着跑着CPU复位了,没有任何异常和打印,温度也不高,系统就重新起来了

首先确认messages中是否异常信息?是否部署了kdump并捕获到了panic?
如果没有的话,这种现象通常是硬件原因导致,软件异常通常是挂死或其他现象,不会直接复位的~
从个人经验看,硬件中,内存条的故障率最高,其次是cpu,如果硬件方面有日志,看先排查下硬件日志,
如果没有,建议可以先做内存测试(memtest工具),如果故障复现率高,可以做单根内存条测试。
cpu方面,也可以尝试跟其他机器对调测试。

论坛徽章:
9
程序设计版块每日发帖之星
日期:2016-02-13 06:20:00数据库技术版块每日发帖之星
日期:2016-06-15 06:20:00数据库技术版块每日发帖之星
日期:2016-06-16 06:20:00数据库技术版块每日发帖之星
日期:2016-06-18 06:20:00程序设计版块每日发帖之星
日期:2016-06-27 06:20:00程序设计版块每日发帖之星
日期:2016-07-09 06:20:00IT运维版块每日发帖之星
日期:2016-07-15 06:20:00IT运维版块每日发帖之星
日期:2016-07-27 06:20:00程序设计版块每日发帖之星
日期:2016-08-18 06:20:00
3 [报告]
发表于 2013-11-19 10:31 |只看该作者
本帖最后由 mordorwww 于 2013-11-19 10:50 编辑
humjb_1983 发表于 2013-11-19 09:07
首先确认messages中是否异常信息?是否部署了kdump并捕获到了panic?
如果没有的话,这种现象通常是硬件 ...


你说的挺对

不过后来把内核模块里的函数里的数组定义改成全局数组定义就不出现了,看起来挺邪门

论坛徽章:
15
射手座
日期:2014-02-26 13:45:082015年迎新春徽章
日期:2015-03-04 09:54:452015年辞旧岁徽章
日期:2015-03-03 16:54:15羊年新春福章
日期:2015-02-26 08:47:552015年亚洲杯之卡塔尔
日期:2015-02-03 08:33:45射手座
日期:2014-12-31 08:36:51水瓶座
日期:2014-06-04 08:33:52天蝎座
日期:2014-05-14 14:30:41天秤座
日期:2014-04-21 08:37:08处女座
日期:2014-04-18 16:57:05戌狗
日期:2014-04-04 12:21:33技术图书徽章
日期:2014-03-25 09:00:29
4 [报告]
发表于 2013-11-19 11:14 |只看该作者
mordorwww 发表于 2013-11-19 10:31
你说的挺对

不过后来把内核模块里的函数里的数组定义改成全局数组定义就不出现了,看起来挺邪门

那就是出现panic了?需要看看你的系统panic后的默认行为,执行如下命令:
cat /proc/sys/kernel/panic
看看默认值是多少,如果是0,表示panic后系统直接挂起,如果非0,则表示多少s后,系统自动重启。

论坛徽章:
9
程序设计版块每日发帖之星
日期:2016-02-13 06:20:00数据库技术版块每日发帖之星
日期:2016-06-15 06:20:00数据库技术版块每日发帖之星
日期:2016-06-16 06:20:00数据库技术版块每日发帖之星
日期:2016-06-18 06:20:00程序设计版块每日发帖之星
日期:2016-06-27 06:20:00程序设计版块每日发帖之星
日期:2016-07-09 06:20:00IT运维版块每日发帖之星
日期:2016-07-15 06:20:00IT运维版块每日发帖之星
日期:2016-07-27 06:20:00程序设计版块每日发帖之星
日期:2016-08-18 06:20:00
5 [报告]
发表于 2013-11-19 12:34 |只看该作者
humjb_1983 发表于 2013-11-19 11:14
那就是出现panic了?需要看看你的系统panic后的默认行为,执行如下命令:
cat /proc/sys/kernel/panic
...


cat /proc/sys/kernel/panic
30

论坛徽章:
15
射手座
日期:2014-02-26 13:45:082015年迎新春徽章
日期:2015-03-04 09:54:452015年辞旧岁徽章
日期:2015-03-03 16:54:15羊年新春福章
日期:2015-02-26 08:47:552015年亚洲杯之卡塔尔
日期:2015-02-03 08:33:45射手座
日期:2014-12-31 08:36:51水瓶座
日期:2014-06-04 08:33:52天蝎座
日期:2014-05-14 14:30:41天秤座
日期:2014-04-21 08:37:08处女座
日期:2014-04-18 16:57:05戌狗
日期:2014-04-04 12:21:33技术图书徽章
日期:2014-03-25 09:00:29
6 [报告]
发表于 2013-11-19 12:37 |只看该作者
mordorwww 发表于 2013-11-19 12:34
cat /proc/sys/kernel/panic
30

那就是了,这个配置说明当系统发生panic后,30s后自动复位,所以,你的问题可能是系统panic导致,如果需要定位具体原因,可以部署kdump抓取故障时的vmcore分析。

论坛徽章:
16
2015亚冠之吉达阿赫利
日期:2015-08-17 11:21:462015年迎新春徽章
日期:2015-03-04 09:58:11酉鸡
日期:2014-12-07 09:06:19水瓶座
日期:2014-11-04 14:23:29天秤座
日期:2014-03-02 08:57:52双鱼座
日期:2014-02-22 13:07:56午马
日期:2014-02-14 11:08:18双鱼座
日期:2014-02-13 11:09:37卯兔
日期:2014-02-06 15:10:34子鼠
日期:2014-01-20 14:48:19戌狗
日期:2013-12-19 09:37:46射手座
日期:2013-12-19 09:33:47
7 [报告]
发表于 2013-11-19 18:40 |只看该作者
回复 2# humjb_1983

怎样做单根内存条测试?


   

论坛徽章:
0
8 [报告]
发表于 2013-11-19 18:49 |只看该作者
mordorwww 发表于 2013-11-19 10:31
你说的挺对

不过后来把内核模块里的函数里的数组定义改成全局数组定义就不出现了,看起来挺邪门


考虑一下是否存在Triple Fault的可能?
http://lenky.info/archives/tag/triple-fault

另外,我之前公司有遇到类似的问题,最后的最后确定出来的结果是CPU硬件问题,CPU电压不稳,恶劣的环境下跑着跑着就自动重启了。

论坛徽章:
0
9 [报告]
发表于 2013-11-19 23:10 |只看该作者
mordorwww 发表于 2013-11-19 10:31
你说的挺对

不过后来把内核模块里的函数里的数组定义改成全局数组定义就不出现了,看起来挺邪门


这应该是堆栈溢出导致的吧!

论坛徽章:
15
射手座
日期:2014-02-26 13:45:082015年迎新春徽章
日期:2015-03-04 09:54:452015年辞旧岁徽章
日期:2015-03-03 16:54:15羊年新春福章
日期:2015-02-26 08:47:552015年亚洲杯之卡塔尔
日期:2015-02-03 08:33:45射手座
日期:2014-12-31 08:36:51水瓶座
日期:2014-06-04 08:33:52天蝎座
日期:2014-05-14 14:30:41天秤座
日期:2014-04-21 08:37:08处女座
日期:2014-04-18 16:57:05戌狗
日期:2014-04-04 12:21:33技术图书徽章
日期:2014-03-25 09:00:29
10 [报告]
发表于 2013-11-20 08:34 |只看该作者
embeddedlwp 发表于 2013-11-19 18:40
回复 2# humjb_1983

怎样做单根内存条测试?

呵呵,通常使用单根内存条运行系统,观察复现,逐根测试,如果能稳定复现,即能找到问题内存条。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP