免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 6751 | 回复: 25

[虚拟化] 虚拟机死机问题 [复制链接]

论坛徽章:
15
射手座
日期:2014-02-26 13:45:082015年迎新春徽章
日期:2015-03-04 09:54:452015年辞旧岁徽章
日期:2015-03-03 16:54:15羊年新春福章
日期:2015-02-26 08:47:552015年亚洲杯之卡塔尔
日期:2015-02-03 08:33:45射手座
日期:2014-12-31 08:36:51水瓶座
日期:2014-06-04 08:33:52天蝎座
日期:2014-05-14 14:30:41天秤座
日期:2014-04-21 08:37:08处女座
日期:2014-04-18 16:57:05戌狗
日期:2014-04-04 12:21:33技术图书徽章
日期:2014-03-25 09:00:29
发表于 2014-01-21 16:31 |显示全部楼层
最近Xen中发现虚拟机挂死,现象:dom0 ping不通,键盘无响应,虚拟机挂死,系统日志无异常,xen日志无异常,接显示器没有任何打印,但是最奇怪的现象是,显示器上的光标居然还在闪,但鼠标键盘都没有反应。
问题现象比较奇怪,有几点没想通:
1、看了下控制光标闪烁的代码,居然是通过定时器和工作队列来实现的,也就是说光标闪说明系统系统的中断、定时器软中断、调度至少是正常的。
2、但是,如果上述结论成立的话,那系统日志应该能正常记录才对,但是发现死机时,系统的cron日志是没有的。
3、同样,如果1的结论成立的话,系统至少是应该能响应中断的,也就是说应该能ping通,键盘灯能点亮才对。
还请各位专家帮忙解答下~

论坛徽章:
15
射手座
日期:2014-02-26 13:45:082015年迎新春徽章
日期:2015-03-04 09:54:452015年辞旧岁徽章
日期:2015-03-03 16:54:15羊年新春福章
日期:2015-02-26 08:47:552015年亚洲杯之卡塔尔
日期:2015-02-03 08:33:45射手座
日期:2014-12-31 08:36:51水瓶座
日期:2014-06-04 08:33:52天蝎座
日期:2014-05-14 14:30:41天秤座
日期:2014-04-21 08:37:08处女座
日期:2014-04-18 16:57:05戌狗
日期:2014-04-04 12:21:33技术图书徽章
日期:2014-03-25 09:00:29
发表于 2014-01-22 12:35 |显示全部楼层
继续研究测试,发现这个现象跟irqbalance相关,编写内核模块,强制使虚拟机的一个vcpu进入关中断死锁的状态,在一段时间后,可以复现出上述的现象。
但当关闭irqbalance后,现象无法复现。估计跟irqbalance的CPU亲和性设置策略相关,还有些问题没想明白,还得继续看看~,不知是否有兄弟遇到过类似的问题?

论坛徽章:
15
射手座
日期:2014-02-26 13:45:082015年迎新春徽章
日期:2015-03-04 09:54:452015年辞旧岁徽章
日期:2015-03-03 16:54:15羊年新春福章
日期:2015-02-26 08:47:552015年亚洲杯之卡塔尔
日期:2015-02-03 08:33:45射手座
日期:2014-12-31 08:36:51水瓶座
日期:2014-06-04 08:33:52天蝎座
日期:2014-05-14 14:30:41天秤座
日期:2014-04-21 08:37:08处女座
日期:2014-04-18 16:57:05戌狗
日期:2014-04-04 12:21:33技术图书徽章
日期:2014-03-25 09:00:29
发表于 2014-01-27 17:08 |显示全部楼层
最近分析情况,发现死机前几乎所有核的iowait都冲高到100%,说明此时系统IO已经挂死,目前怀疑开启irqbalance后,会倾向性的将所有中断都绑定到关中断的核上,但由于死机时,键盘等都没有任何反应,屏幕也没有打印,目前还无法确认,需要增加调试手段,继续捯饬中。

论坛徽章:
0
发表于 2014-01-28 15:34 |显示全部楼层
能不能把nmi弄上去?

论坛徽章:
0
发表于 2014-01-28 15:41 |显示全部楼层
为啥不用 kvm 呢?
kvm 还算稳定啊:)

论坛徽章:
0
发表于 2014-01-29 16:24 来自手机 |显示全部楼层
据分析和测试,dom0的nmi是不起作用的

论坛徽章:
0
发表于 2014-01-29 16:25 来自手机 |显示全部楼层
之前xen的成熟度更好高,所以。。

论坛徽章:
0
发表于 2014-02-02 06:40 |显示全部楼层
继续研究测试,发现这个现象跟irqbalance相关,编写内核模块,强制使虚拟机的一个vcpu进入关中断死锁的状态,在一段时间后,可以复现出上述的现象。
但当关闭irqbalance后,现象无法复现
-》牛叉,居然找到复现规律了。

论坛徽章:
0
发表于 2014-02-11 16:28 |显示全部楼层
碰到过挂住,但是跟你说的现象对不起来
另外,xen的生态链相对kvm还是要成熟很多

论坛徽章:
15
射手座
日期:2014-02-26 13:45:082015年迎新春徽章
日期:2015-03-04 09:54:452015年辞旧岁徽章
日期:2015-03-03 16:54:15羊年新春福章
日期:2015-02-26 08:47:552015年亚洲杯之卡塔尔
日期:2015-02-03 08:33:45射手座
日期:2014-12-31 08:36:51水瓶座
日期:2014-06-04 08:33:52天蝎座
日期:2014-05-14 14:30:41天秤座
日期:2014-04-21 08:37:08处女座
日期:2014-04-18 16:57:05戌狗
日期:2014-04-04 12:21:33技术图书徽章
日期:2014-03-25 09:00:29
发表于 2014-02-11 17:07 |显示全部楼层
leil 发表于 2014-02-11 16:28
碰到过挂住,但是跟你说的现象对不起来
另外,xen的生态链相对kvm还是要成熟很多

呵呵,是的,死机原因可能有很多,现象也不尽相同,虚拟化环境中尤其难查。
目前很多公司都转向KVM了,相信KVM会是以后的主流,而且目前的成熟度也很高了。。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP