免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3516 | 回复: 8

请教一个问题:F4800宕机原因分析 [复制链接]

论坛徽章:
0
发表于 2005-02-03 11:06 |显示全部楼层
\r\n我这儿有一台F4800,近期经常宕机,有些规律,只要执行一个Q3程序,系统就会宕机,让人头痛。看了看日志,看不太懂,好象是线程之间互相死锁,也不知道是硬件故障还是程序问题,更不知道怎么解决。请大家帮忙瞧瞧。日志详见下面:\r\n......\r\nFeb  2 17:51:18 sxmd6 unix: [ID 836849 kern.notice] \r\nFeb  2 17:51:18 sxmd6 ^Mpanic[cpu11]/thread=300122826e0: \r\nFeb  2 17:51:18 sxmd6 unix: [ID 783603 kern.notice] Deadlock: cycle in blocking chain\r\nFeb  2 17:51:18 sxmd6 unix: [ID 100000 kern.notice] \r\nFeb  2 17:51:18 sxmd6 genunix: [ID 723222 kern.notice] 000002a102191070 genunix:turnstile_block+360 (300122826e0, 0, 10420808, 30011744030, 0, 300137b7d10)\r\nFeb  2 17:51:18 sxmd6 genunix: [ID 179002 kern.notice]   %l0-3: 000000001004980c 0000030011496420 00000300124dd680 0000000000000000\r\nFeb  2 17:51:18 sxmd6   %l4-7: 0000000010420808 0000000000000000 00000300117f5140 00000300124dd680\r\nFeb  2 17:51:18 sxmd6 genunix: [ID 723222 kern.notice] 000002a102191140 unix:mutex_vector_enter+3b8 (300137b7d10, 104266d0, 104647e0, 300000c0000, 0, 1d2)\r\nFeb  2 17:51:18 sxmd6 genunix: [ID 179002 kern.notice]   %l0-3: ffff14f051a593d0 00000300137b7d10 000003000574aab0 0000000000000640\r\nFeb  2 17:51:18 sxmd6   %l4-7: 00000300124dd680 000003000574aab0 00000300117f5141 000002a102191ba0\r\nFeb  2 17:51:18 sxmd6 genunix: [ID 723222 kern.notice] 000002a102191200 genunix:set_qend+c (300137b7d10, 300137b7ca8, 30012e2d128, 30012e2d1a8, 30012e2d128, 300137de4d0)\r\nFeb  2 17:51:18 sxmd6 genunix: [ID 179002 kern.notice]   %l0-3: 0000000000000000 0000000000000000 000003001389d550 0000000000007fff\r\nFeb  2 17:51:18 sxmd6   %l4-7: 0000000000000000 0000000000000000 0000000000000000 0000000000000000\r\nFeb  2 17:51:18 sxmd6 genunix: [ID 723222 kern.notice] 000002a1021912b0 genunix:removeq+230 (0, 300137de310, 300137de4d0, 30012e2d128, 3000bf60810, 300137de3f0)\r\nFeb  2 17:51:18 sxmd6 genunix: [ID 179002 kern.notice]   %l0-3: 0000000000000001 000003000a9e1378 0000000000010000 0000000000000000\r\nFeb  2 17:51:18 sxmd6   %l4-7: 000000007846e908 0000000000000000 0000000000000000 0000000000000000\r\nFeb  2 17:51:18 sxmd6 genunix: [ID 723222 kern.notice] 000002a102191360 genunix:link_rempassthru+10 (300137de310, 300122826e0, 20, 3000a2b2cd0, 30010a556e0, 10)\r\nFeb  2 17:51:18 sxmd6 genunix: [ID 179002 kern.notice]   %l0-3: 0000000000000040 0000030010a55658 000002a102191558 0000000000000040\r\nFeb  2 17:51:18 sxmd6   %l4-7: 0000030010a556d8 0000000000003a98 000003000a248d80 0000000000000000\r\nFeb  2 17:51:18 sxmd6 genunix: [ID 723222 kern.notice] 000002a102191410 genunix:mlink+40c (5000, 0, 104f04e0, ffffffff, 300106f7d88, 2a102191aec)\r\nFeb  2 17:51:18 sxmd6 genunix: [ID 179002 kern.notice]   %l0-3: 0000030010a556d8 0000030008c57b80 0000030010a55658 000000000000530c\r\nFeb  2 17:51:18 sxmd6   %l4-7: 0000000000000005 0000030012e2d128 00000300137b7ca8 0000000000002000\r\nFeb  2 17:51:18 sxmd6 genunix: [ID 723222 kern.notice] 000002a102191570 genunix:strioctl+2cc4 (30010a556d8, 0, 2a102191aec, 3000a2b2cd0, 1, 300135b2910)\r\nFeb  2 17:51:18 sxmd6 genunix: [ID 179002 kern.notice]   %l0-3: 0000000000000005 0000030008c57b80 000000000000530c 0000000000202003\r\nFeb  2 17:51:18 sxmd6   %l4-7: 0000030010a556d8 0000030010a55658 000002a102191aec 00000300135b2830\r\nFeb  2 17:51:18 sxmd6 genunix: [ID 723222 kern.notice] 000002a1021918e0 specfs:spec_ioctl+8c (30008c57b80, 530c, 5, 202003, 3000a2b2cd0, 2a102191aec)\r\nFeb  2 17:51:18 sxmd6 genunix: [ID 179002 kern.notice]   %l0-3: 0000004482001204 0000000000000016 0000000000000000 0000000000000004\r\nFeb  2 17:51:18 sxmd6   %l4-7: 0000000000000000 0000030005968000 00000300122826e0 000002a102191ba0\r\nFeb  2 17:51:18 sxmd6 genunix: [ID 723222 kern.notice] 000002a1021919a0 genunix:ioctl+1e4 (300138737e0, 4, 5, ffffffff7eeb6f60, 530c, 0)\r\nFeb  2 17:51:18 sxmd6 genunix: [ID 179002 kern.notice]   %l0-3: 0000000010160600 0000000000000000 0000000000000000 0000000000000000\r\nFeb  2 17:51:18 sxmd6   %l4-7: 0000000000000000 0000000000000000 0000000000000000 0000000000000000\r\nFeb  2 17:51:18 sxmd6 unix: [ID 100000 kern.notice] \r\nFeb  2 17:51:18 sxmd6 genunix: [ID 672855 kern.notice] syncing file systems...\r\nFeb  2 17:51:21 sxmd6 genunix: [ID 733762 kern.notice]  162\r\nFeb  2 17:51:23 sxmd6 genunix: [ID 733762 kern.notice]  110\r\nFeb  2 17:51:25 sxmd6 genunix: [ID 733762 kern.notice]  83\r\nFeb  2 17:52:00 sxmd6 last message repeated 20 times\r\nFeb  2 17:52:01 sxmd6 genunix: [ID 622722 kern.notice]  done (not all i/o completed)\r\nFeb  2 17:52:02 sxmd6 genunix: [ID 353387 kern.notice] dumping to /dev/dsk/c0t0d0s1, offset 859111424\r\nFeb  2 17:53:02 sxmd6 genunix: [ID 409368 kern.notice] ^M100% done: 142029 pages dumped, compression ratio 3.02, \r\nFeb  2 17:53:02 sxmd6 genunix: [ID 851671 kern.notice] dump succeeded\r\nFeb  2 17:56:53 sxmd6 genunix: [ID 540533 kern.notice] ^MSunOS Release 5.8 Version Generic_117350-16 64-bit\r\nFeb  2 17:56:53 sxmd6 genunix: [ID 913632 kern.notice] Copyright 1983-2003 Sun Microsystems, Inc.  All rights reserved.\r\nFeb  2 17:56:53 sxmd6 genunix: [ID 678236 kern.info] Ethernet address = 0:3:ba:4:1e:ec\r\n......\r\n\r\n谢谢啊!\r\n祝DJ新年快乐! \r\n

论坛徽章:
0
发表于 2005-02-03 17:33 |显示全部楼层

请教一个问题:F4800宕机原因分析

建议先作系统最大化监测 来确定是不是硬件问题,假如不是硬件问题,那么应该考虑是不是软件兼容性问题?

论坛徽章:
0
发表于 2005-02-03 18:01 |显示全部楼层

请教一个问题:F4800宕机原因分析

运行这个程序,立刻察看 mpstat 5的输出的第smtx(这个就是死锁)项,看是不是很快的增大?\r\n一般的如果机子的内存和cpu很强的话,这个值肯定到30是没关系的。像我的Fire v120,一般的时候smtx都是0。\r\n\r\n然后有一个命令是lockstat,你man一下,我也不太会用。\r\n\r\n\r\n如果问题以后解决了,无论如何请告诉我们解决的方法,让大家都学习一下。

论坛徽章:
0
发表于 2005-02-03 18:46 |显示全部楼层

请教一个问题:F4800宕机原因分析

1\\如果系统每次都报cpu11出现panic错,那就是此cpu 硬件有问题,可以考虑把他拔出来,让其他几个CPU工作,看是否还出问题。\r\n2\\ 如果每次都是在Q3运行的时候出问题,那应该是软件的问题,\r\n3\\如果以前运行Q3都没问题的话,那还是要怀疑是CPU硬件问题.

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
发表于 2005-02-03 18:53 |显示全部楼层

请教一个问题:F4800宕机原因分析

也可能是内存。尤其是供CPU11的内存条。看看messages中有没有关于内存的报错记录。

论坛徽章:
0
发表于 2005-02-03 20:16 |显示全部楼层

请教一个问题:F4800宕机原因分析

楼上的,会分析crash 文件吗?

论坛徽章:
0
发表于 2005-02-04 00:13 |显示全部楼层

请教一个问题:F4800宕机原因分析

把补丁打到最新的看看,另外,如果以前运行该程序没有问题的话,那么就应该是硬件的问题。

论坛徽章:
0
发表于 2005-02-04 14:56 |显示全部楼层

请教一个问题:F4800宕机原因分析

99% is a software problem. try to update your patch level.\r\nIf problem still exists, let program developer to debug your application.

论坛徽章:
0
发表于 2005-02-04 17:17 |显示全部楼层

请教一个问题:F4800宕机原因分析

重新安装了Q3软件,然后再运行,系统不再crash。前几次crash时,日志显示都是因为CPU11的线程死锁,我想找个机会,装个CAT软件再分析一下前几次的core文件。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP