免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4401 | 回复: 3
打印 上一主题 下一主题

ubuntu9.1/2.6.31_x64 出现不死僵尸,只能硬重启,有没人了解? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-07-16 01:39 |只看该作者 |倒序浏览
我们有台机器装的是 ubuntu 9.1 server/linux-2.6.31_x64
上面跑 php-cgi,某些情况会有有进程状态变成 zombie 并永不消失,在控制台无论如何也杀不死,
此外像 w, lsof, ps, top, ls /proc/$pid 等凡是会试图读取该进程信息的命令将全部卡死, 这也导致
ssh 无法连接。连控制台输入 reboot 也不行,只有按电源重启。

有没有人了解或也碰到过类似的情况?

其实一出问题 ssh 就连不上,前几天为解决这个情况临时开启了 telnet 服务,telnet 登入后其实也
是卡屏(跟 w类似),不过按一下 ctrl-c 就回到 shell了,但 ssh 就永远卡那儿了。

我试图用 strace 追踪 w 指令,发现它在读取这个僵尸进程的信息时无限阻塞了,摘录如下,
/proc/$pid/cmdline 本来是相当于一个指向执行文件的软链,但这个古怪的僵尸在读取时卡了。

open("/proc/13858/cmdline", O_RDONLY)   = 4
read(4, "/home/soft/php53/bin/php-cgi\0", 2047) = 29
close(4)                                = 0
stat("/proc/14317", {st_mode=S_IFDIR|0555, st_size=0, ...}) = 0
open("/proc/14317/stat", O_RDONLY)      = 4
read(4, "14317 (php-cgi) Z 1 18476 18476 "..., 1023) = 184
close(4)                                = 0
open("/proc/14317/cmdline", O_RDONLY)   = 4
read(4, "", 2047)                       = 0
close(4)                                = 0
stat("/proc/14954", {st_mode=S_IFDIR|0555, st_size=0, ...}) = 0
open("/proc/14954/stat", O_RDONLY)      = 4
read(4, "14954 (php-cgi) D 1 18476 18476 "..., 1023) = 259
close(4)                                = 0
open("/proc/14954/cmdline", O_RDONLY)   = 4
read(4,


^C <unfinished ...>

从上面记录看到 14954 就是那只不死神尸!

论坛徽章:
0
2 [报告]
发表于 2011-07-17 00:16 |只看该作者
昨天的 #
linux# 不死进程后续,今天又出现类似状态,用 strace w 跟踪发现有好几个进程的状态为 D(试过 mount 一个已经挂掉的 nfs 就知道了),这通常是不可间断的 IO 等待,所以无法杀死;尚不清楚为何会有这样的进程,恐怕可能是硬件问题了。

论坛徽章:
0
3 [报告]
发表于 2011-07-18 00:17 |只看该作者
刚才登陆系统跟踪,发现又有2个 php-cgi 的 zombie进程,strace 追踪父进程,发现卡在 wait(-1,.. 长时间不返回。

晕了,然后  /var/log/messages 里有大量类似如下的内核日志,我想大概是硬件故障了,有人看得懂不?

Jul 17 06:33:13 e1 kernel: [22179.314984] PGD 136433067 PUD 134d8f067 PMD 0
Jul 17 06:33:13 e1 kernel: [22179.315161] CPU 3
Jul 17 06:33:13 e1 kernel: [22179.315199] Modules linked in: snd_hda_intel iptable_filter snd_hda_codec ip_tables x_tables snd_hwdep psmouse snd_pcm lp snd_timer serio_raw snd parport soundcore snd_page_alloc e1000e megaraid_sas
Jul 17 06:33:13 e1 kernel: [22179.315379] Pid: 2449, comm: php-cgi Tainted: G      D    2.6.31-14-server #48-Ubuntu System Product Name
Jul 17 06:33:13 e1 kernel: [22179.315467] RIP: 0010:[<ffffffff811aef07>]  [<ffffffff811aef07>] walk_page_buffers+0x27/0xb0
Jul 17 06:33:13 e1 kernel: [22179.315554] RSP: 0000:ffff8800a03dbd48  EFLAGS: 00010296
Jul 17 06:33:13 e1 kernel: [22179.315602] RAX: 0000000000000000 RBX: 0000000000000000 RCX: 0000000000001000
Jul 17 06:33:13 e1 kernel: [22179.315656] RDX: 0000000000000000 RSI: 0000000000000000 RDI: 0000000000000000
Jul 17 06:33:13 e1 kernel: [22179.315710] RBP: ffff8800a03dbda8 R08: 0000000000000000 R09: ffffffff811af250
Jul 17 06:33:13 e1 kernel: [22179.315764] R10: e800000000000000 R11: ffff8800a03dbe38 R12: 0000000000000000
Jul 17 06:33:13 e1 kernel: [22179.315818] R13: 0000000000001000 R14: 0000000000000000 R15: ffffea0000831d00
Jul 17 06:33:13 e1 kernel: [22179.315872] FS:  00007f01e9f62910(0000) GS:ffffc90000600000(0000) knlGS:0000000000000000
Jul 17 06:33:13 e1 kernel: [22179.315956] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Jul 17 06:33:13 e1 kernel: [22179.316005] CR2: 0000000000000020 CR3: 000000013646d000 CR4: 00000000000006e0
Jul 17 06:33:13 e1 kernel: [22179.316059] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Jul 17 06:33:13 e1 kernel: [22179.316113] DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400
Jul 17 06:33:13 e1 kernel: [22179.316168] Process php-cgi (pid: 2449, threadinfo ffff8800a03da000, task ffff88013445c410)
Jul 17 06:33:13 e1 kernel: [22179.316287]  ffff8800a03dbd98 ffffffff815268eb 00007f01dfe459e8 ffff8800a03dbe38
Jul 17 06:33:13 e1 kernel: [22179.316347] <0> ffffffff811af250 0000000000000000 ffff8800a03dbd98 ffff8801399a95c0
Jul 17 06:33:13 e1 kernel: [22179.316436] <0> ffff88001db3e610 ffff88001db3e650 0000000000001000 ffffea0000831d00
Jul 17 06:33:13 e1 kernel: [22179.316599]  [<ffffffff815268eb>] ? __down_read+0xbb/0xc6
Jul 17 06:33:13 e1 kernel: [22179.316649]  [<ffffffff811af250>] ? ext4_bh_unmapped+0x0/0x20
Jul 17 06:33:13 e1 kernel: [22179.316699]  [<ffffffff811af355>] ext4_page_mkwrite+0xe5/0x160
Jul 17 06:33:13 e1 kernel: [22179.316751]  [<ffffffff810f3a48>] __do_fault+0xb8/0x4e0
Jul 17 06:33:13 e1 kernel: [22179.316800]  [<ffffffff810f8157>] handle_mm_fault+0x1a7/0x3c0
Jul 17 06:33:13 e1 kernel: [22179.316854]  [<ffffffff81036419>] ? default_spin_lock_flags+0x9/0x10
Jul 17 06:33:13 e1 kernel: [22179.316908]  [<ffffffff81529645>] do_page_fault+0x165/0x360
Jul 17 06:33:13 e1 kernel: [22179.316958]  [<ffffffff81526fc5>] page_fault+0x25/0x30
Jul 17 06:33:13 e1 kernel: [22179.317339]  RSP <ffff8800a03dbd48>
Jul 17 06:33:13 e1 kernel: [22179.317695] ---[ end trace 4b80697f306947f7 ]---

论坛徽章:
0
4 [报告]
发表于 2011-07-18 00:18 |只看该作者
google找到一篇类似文章,先MARK一下:http://www.twcenter.net/forums/showthread.php?t=225377
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP