免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 8019 | 回复: 15
打印 上一主题 下一主题

关于系统dump的分析问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-02-22 11:18 |只看该作者 |倒序浏览
上周单位一台数据库服务器发生莫明其妙的重启事件。事后我用snap收集了dump信息。用kdb分析dump结果如下,请各位大侠看看能不能看出点有用的东西:IBM p595 , 8CPU, 24G memory ,oslevel 5300-04 $kdb dump unixThe specified kernel file is a 64-bit kerneldump mapped from @ 700000000000000 to @ 7000000d1386f84Preserving 1317350 bytes of symbol tableFirst symbol __mulhComponent Names: 1)  minidump [2 entries] 2)  dmp_minimal [9 entries] 3)  proc [2155 entries] 4)  thrd [9557 entries] 5)  rasct [1 entries] 6)  ldr [2 entries] 7)  errlg [3 entries] 8)  mtrc [50 entries] 9)  lfs [2 entries]10)  bos [2 entries]11)  ipc [7 entries]12)  vmm [13 entries]13)  alloc_kheap [512 entries]14)  alloc_other [228 entries]15)  rtastrc [8 entries]16)  sscsidd [2 entries]17)  aixpcm [5 entries]18)  efcdd [38 entries]19)  scdisk [11 entries]20)  lvm [2 entries]21)  jfs2 [1 entries]22)  tty [4 entries]23)  netstat [10 entries]24)  goent_dd [7 entries]25)  scsidisk [123 entries]26)  efscsi [9 entries]27)  dump_statistics [1 entries]Component Dump Table has 12764 entries           START              END <name>0000000000001000 0000000003BBA050 start+000FD8F00000002FF47600 F00000002FFDC920 __ublock+000000000000002FF22FF4 000000002FF22FF8 environ+000000000000002FF22FF8 000000002FF22FFC errno+000000F100070F00000000 F100070F10000000 pvproc+000000F100070F10000000 F100070F18000000 pvthread+000000PFT:PVT:id....................0002raddr.....0000000002000000 eaddr.....F200800080000000size..............00080000 align.............00001000valid..1 ros....0 fixlmb.1 seg....0 wimg...2[kdb_read_mem] no real storage @ F100000010789F98[kdb_read_mem] no real storage @ F1000000107765D8Dump analysis on CHRP_SMP_PCI POWER_PC POWER_5 machine with 16 available CPU(s) (64-bit registers)Processing symbol table..........................done(6)> statSYSTEM_CONFIGURATION:CHRP_SMP_PCI POWER_PC POWER_5 machine with 16 available CPU(s)  (64-bit registers) SYSTEM STATUS:sysname... AIXnodename.. DBAMLrelease... 3version... 5build date Jan 10 2006build time 10:56:32label..... 0602A_53Emachine... 00C1397E4C00nid....... C1397E4Ctime of crash: Thu Feb 21 10:15:36 2008age of system: 261 day, 18 hr., 6 min., 8 sec.xmalloc debug: disabled CRASH INFORMATION:CPU 6 CSA 01941E00 at time of crash, error code for LEDs: 30000000pvthread+000D00 STACK:[00075FEC]v_delpft+000108 (F200800030000008 [??])[0010AA88]v_relframe+000464 (??, ??, ??)[001027E4]v_pageout+0006D0 (??, ??, ??)[00141A20]v_steal+00043C (??, ??, ??, ??)[00144EF4]v_fblru_scan+0003B8 (??)[001403D4]v_lru+00035C (??)[001414D0]v_memp_lru+00023C (??)[00207FEC]v_prememp_lru+000020 (??)[002A2474].backt+000080 ()____ Exception (F00000003002F780) ____iar   : 00000000002A23F4  msr   : 80000000000010B2  cr    : 42000024lr    : 00000000001408D4  ctr   : 0000000000140880  xer   : 00000000mq    : 00000000  asr   : 000000003AB4A001r0  : 0000000000207FCC  r1  : 0FFFFFFFF402FE90  r2  : 0000000001491C28r3  : 0000000000000001  r4  : F100010049CA8180  r5  : 0000000003B90280r6  : 0000000000000000  r7  : 0000000000000000  r8  : 0000000000000106r9  : 0000000000000000  r10 : 00000000001408D4  r11 : F00000003002F780r12 : 80000000000010B2  r13 : F100010049C89800  r14 : 00000000DEADBEEFr15 : 000000000101A9C0  r16 : 00000000DEADBEEF  r17 : 00000000DEADBEEFr18 : 00000000DEADBEEF  r19 : 00000000DEADBEEF  r20 : 00000000DEADBEEFr21 : 00000000DEADBEEF  r22 : 00000000DEADBEEF  r23 : 00000000DEADBEEFr24 : 00000000DEADBEEF  r25 : 00000000DEADBEEF  r26 : 00000000DEADBEEFr27 : 00000000DEADBEEF  r28 : 00000000DEADBEEF  r29 : 00000000DEADBEEFr30 : 0000000003B90280  r31 : 0000000000000001prev      0000000000000000 stackfix  0000000000000000 int_ticks 00kjmpbuf   0000000000000000 excbranch 0000000000000000 no_pfault 00intpri    0B backt     00 flags     00fpscr     0000000000000000 fpscrx    00000000 fpowner   00fpeu      00 fpinfo    00 alloc     F000o_iar     0000000000000000 o_toc     0000000000000000o_arg1    0000000000000000 o_vaddr   0000000000000000krlockp   0000000000000000Except : csr   0000000000000000 dsisr 0000000040010000  bit set: DSISR_PFT esid  000000003C00BD10 dar   0FFFFFFFF4030580 dsirr 0000000000000106[002A23F4].backt+000000 ()[kdb_get_memory] no real storage @ FFFFFFFF402FEA0  从CPU 6 CSA 01941E00 at time of crash, error code for LEDs: 30000000这句话看应该是 cpu 6 出了问题导致的crash。(6)>statusCPU     TID  TSLOT     PID  PSLOT  PROC_NAME  0     2005      2    2004      2  wait  1    12025     18    D01A     13  wait  2    13027     19    E01C     14  wait  3    1502B     21    F01E     15  wait  4    1602D     22   10020     16  wait  5    1702F     23   11022     17  wait  6     D01B     13    4008      4  lrud  7    19033     25   13026     19  wait  8      135  32768     128  16384  wait  9   4A9163  33961   D8118  16600  db2sysc 10     413D  32772    4130  16388  wait 11     513F  32773    5132  16389  wait 12     6141  32774    6134  16390  wait 13     7143  32775    7136  16391  wait 14   368145  33640   B8038    184  asiqsrv12 15     9147  32777    913A  16393  wait 16-63   Disabled(因为是双核的cpu所以显示有16个cpu)我们可以看到cpu 6正在执行lrud(换页)进程。 我现在想知道CPU 6 CSA 01941E00 at time of crash中 01941E00 是什么意思,或者有没有哪位高人知道怎么能进一步分析错误原因。望各位能不吝赐教,谢谢

论坛徽章:
0
2 [报告]
发表于 2008-02-22 11:19 |只看该作者

上面一个不清楚重发一个

上周单位一台数据库服务器发生莫明其妙的重启事件。\r\n事后我用snap收集了dump信息。\r\n用kdb分析dump结果如下,请各位大侠看看能不能看出点有用的东西:\r\nIBM p595 , 8CPU, 24G memory ,oslevel 5300-04\r\n\r\n$kdb dump unix\r\nThe specified kernel file is a 64-bit kernel\r\ndump mapped from @ 700000000000000 to @ 7000000d1386f84\r\nPreserving 1317350 bytes of symbol table\r\nFirst symbol __mulh\r\nComponent Names:\r\n 1)  minidump [2 entries]\r\n 2)  dmp_minimal [9 entries]\r\n 3)  proc [2155 entries]\r\n 4)  thrd [9557 entries]\r\n 5)  rasct [1 entries]\r\n 6)  ldr [2 entries]\r\n 7)  errlg [3 entries]\r\n   mtrc [50 entries]\r\n 9)  lfs [2 entries]\r\n10)  bos [2 entries]\r\n11)  ipc [7 entries]\r\n12)  vmm [13 entries]\r\n13)  alloc_kheap [512 entries]\r\n14)  alloc_other [228 entries]\r\n15)  rtastrc [8 entries]\r\n16)  sscsidd [2 entries]\r\n17)  aixpcm [5 entries]\r\n1  efcdd [38 entries]\r\n19)  scdisk [11 entries]\r\n20)  lvm [2 entries]\r\n21)  jfs2 [1 entries]\r\n22)  tty [4 entries]\r\n23)  netstat [10 entries]\r\n24)  goent_dd [7 entries]\r\n25)  scsidisk [123 entries]\r\n26)  efscsi [9 entries]\r\n27)  dump_statistics [1 entries]\r\nComponent Dump Table has 12764 entries\r\n           START              END <name>\r\n0000000000001000 0000000003BBA050 start+000FD8\r\nF00000002FF47600 F00000002FFDC920 __ublock+000000\r\n000000002FF22FF4 000000002FF22FF8 environ+000000\r\n000000002FF22FF8 000000002FF22FFC errno+000000\r\nF100070F00000000 F100070F10000000 pvproc+000000\r\nF100070F10000000 F100070F18000000 pvthread+000000\r\nPFT:\r\nPVT:\r\nid....................0002\r\nraddr.....0000000002000000 eaddr.....F200800080000000\r\nsize..............00080000 align.............00001000\r\nvalid..1 ros....0 fixlmb.1 seg....0 wimg...2\r\n[kdb_read_mem] no real storage @ F100000010789F98\r\n[kdb_read_mem] no real storage @ F1000000107765D8\r\nDump analysis on CHRP_SMP_PCI POWER_PC POWER_5 machine with 16 available CPU(s)\r\n (64-bit registers)\r\nProcessing symbol table...\r\n.......................done\r\n(6)> stat\r\nSYSTEM_CONFIGURATION:\r\nCHRP_SMP_PCI POWER_PC POWER_5 machine with 16 available CPU(s)  (64-bit registers)\r\n\r\nSYSTEM STATUS:\r\nsysname... AIX\r\nnodename.. DBAML\r\nrelease... 3\r\nversion... 5\r\nbuild date Jan 10 2006\r\nbuild time 10:56:32\r\nlabel..... 0602A_53E\r\nmachine... 00C1397E4C00\r\nnid....... C1397E4C\r\ntime of crash: Thu Feb 21 10:15:36 2008\r\nage of system: 261 day, 18 hr., 6 min., 8 sec.\r\nxmalloc debug: disabled\r\n\r\nCRASH INFORMATION:\r\nCPU 6 CSA 01941E00 at time of crash, error code for LEDs: 30000000\r\npvthread+000D00 STACK:\r\n[00075FEC]v_delpft+000108 (F200800030000008 [??])\r\n[0010AA88]v_relframe+000464 (??, ??, ??)\r\n[001027E4]v_pageout+0006D0 (??, ??, ??)\r\n[00141A20]v_steal+00043C (??, ??, ??, ??)\r\n[00144EF4]v_fblru_scan+0003B8 (??)\r\n[001403D4]v_lru+00035C (??)\r\n[001414D0]v_memp_lru+00023C (??)\r\n[00207FEC]v_prememp_lru+000020 (??)\r\n[002A2474].backt+000080 ()\r\n____ Exception (F00000003002F780) ____\r\niar   : 00000000002A23F4  msr   : 80000000000010B2  cr    : 42000024\r\nlr    : 00000000001408D4  ctr   : 0000000000140880  xer   : 00000000\r\nmq    : 00000000  asr   : 000000003AB4A001\r\nr0  : 0000000000207FCC  r1  : 0FFFFFFFF402FE90  r2  : 0000000001491C28\r\nr3  : 0000000000000001  r4  : F100010049CA8180  r5  : 0000000003B90280\r\nr6  : 0000000000000000  r7  : 0000000000000000  r8  : 0000000000000106\r\nr9  : 0000000000000000  r10 : 00000000001408D4  r11 : F00000003002F780\r\nr12 : 80000000000010B2  r13 : F100010049C89800  r14 : 00000000DEADBEEF\r\nr15 : 000000000101A9C0  r16 : 00000000DEADBEEF  r17 : 00000000DEADBEEF\r\nr18 : 00000000DEADBEEF  r19 : 00000000DEADBEEF  r20 : 00000000DEADBEEF\r\nr21 : 00000000DEADBEEF  r22 : 00000000DEADBEEF  r23 : 00000000DEADBEEF\r\nr24 : 00000000DEADBEEF  r25 : 00000000DEADBEEF  r26 : 00000000DEADBEEF\r\nr27 : 00000000DEADBEEF  r28 : 00000000DEADBEEF  r29 : 00000000DEADBEEF\r\nr30 : 0000000003B90280  r31 : 0000000000000001\r\nprev      0000000000000000 stackfix  0000000000000000 int_ticks 00\r\nkjmpbuf   0000000000000000 excbranch 0000000000000000 no_pfault 00\r\nintpri    0B backt     00 flags     00\r\nfpscr     0000000000000000 fpscrx    00000000 fpowner   00\r\nfpeu      00 fpinfo    00 alloc     F000\r\no_iar     0000000000000000 o_toc     0000000000000000\r\no_arg1    0000000000000000 o_vaddr   0000000000000000\r\nkrlockp   0000000000000000\r\nExcept :\r\n csr   0000000000000000 dsisr 0000000040010000  bit set: DSISR_PFT\r\n esid  000000003C00BD10 dar   0FFFFFFFF4030580 dsirr 0000000000000106\r\n[002A23F4].backt+000000 ()\r\n[kdb_get_memory] no real storage @ FFFFFFFF402FEA0\r\n\r\n\r\n从CPU 6 CSA 01941E00 at time of crash, error code for LEDs: 30000000\r\n这句话看应该是 cpu 6 出了问题导致的crash。\r\n(6)>status\r\nCPU     TID  TSLOT     PID  PSLOT  PROC_NAME\r\n  0     2005      2    2004      2  wait\r\n  1    12025     18    D01A     13  wait\r\n  2    13027     19    E01C     14  wait\r\n  3    1502B     21    F01E     15  wait\r\n  4    1602D     22   10020     16  wait\r\n  5    1702F     23   11022     17  wait\r\n  6     D01B     13    4008      4  lrud\r\n  7    19033     25   13026     19  wait\r\n  8      135  32768     128  16384  wait\r\n  9   4A9163  33961   D8118  16600  db2sysc\r\n 10     413D  32772    4130  16388  wait\r\n 11     513F  32773    5132  16389  wait\r\n 12     6141  32774    6134  16390  wait\r\n 13     7143  32775    7136  16391  wait\r\n 14   368145  33640   B8038    184  asiqsrv12\r\n 15     9147  32777    913A  16393  wait\r\n 16-63   Disabled\r\n(因为是双核的cpu所以显示有16个cpu)\r\n我们可以看到cpu 6正在执行lrud(换页)进程。\r\n\r\n我现在想知道CPU 6 CSA 01941E00 at time of crash中 \r\n01941E00 是什么意思,\r\n或者有没有哪位高人知道怎么能进一步分析错误原因。\r\n望各位能不吝赐教,谢谢

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
3 [报告]
发表于 2008-02-22 20:04 |只看该作者
595还分析什么,直接报call了

论坛徽章:
0
4 [报告]
发表于 2008-02-23 13:45 |只看该作者
仅从 stack 上看,这个可能是 IY81227:\r\n\"SYSTEM CRASH IN V_DELPFT USING 64K PAGES\".

论坛徽章:
0
5 [报告]
发表于 2008-02-25 09:56 |只看该作者
谢谢两位的回答。\r\n这个故障自然早就报IBM了。\r\n不过一个他们分析原因时间长,而且最后总会把原因归结到应用头上。\r\n(如果有IBM的兄弟请原谅,我说的是实话)\r\n另一个也想自己学习学习,长点知识。\r\n还请兄弟们多多指点。

论坛徽章:
0
6 [报告]
发表于 2008-02-25 10:23 |只看该作者
支持IY81227缺失的判断。\r\n\r\nIY81227: SYSTEM CRASH IN V_DELPFT USING 64K PAGES\r\nProblem summary\r\n****************************************************************\r\n* USERS AFFECTED:\r\n* AIX 5.3 systems using 64K pages with the kernels (bos.mp,\r\n* bos.mp64) below the level of 5.3.0.41.\r\n****************************************************************\r\n* PROBLEM DESCRIPTION:\r\n* System crash in v_delpft during dynamic reconfiguration when\r\n* using 64K pages.\r\n****************************************************************\r\n* RECOMMENDATION:\r\n* Install APAR IY81227.\r\n****************************************************************

论坛徽章:
0
7 [报告]
发表于 2008-02-25 10:28 |只看该作者
或者你可以关掉 64K pages。\r\n\r\nvmo -r -o vmm_mpsize_support=0 ; \r\nreboot\r\n\r\n另外,这是个已知并且常见问题,多发于系统管理员有一定水准而且爱好尝鲜的单位,所以,通常不会是银行,但由于请得起这样的管理员的单位也不小,所以通常是通讯行业。\r\n\r\n我想IBM的人应该会很快回你消息的。

论坛徽章:
0
8 [报告]
发表于 2008-02-25 10:39 |只看该作者
能不能给讲讲怎么分析出是IY81227的问题呢?从楼主所提供的信息里的哪部分得出的呢?

论坛徽章:
0
9 [报告]
发表于 2008-02-25 10:48 |只看该作者
pvthread+000D00 STACK:\r\n[00075FEC]v_delpft+000108 (F200800030000008 [??])\r\n[0010AA88]v_relframe+000464 (??, ??, ??)\r\n[001027E4]v_pageout+0006D0 (??, ??, ??)\r\n[00141A20]v_steal+00043C (??, ??, ??, ??)\r\n[00144EF4]v_fblru_scan+0003B8 (??)\r\n[001403D4]v_lru+00035C (??)\r\n[001414D0]v_memp_lru+00023C (??)\r\n[00207FEC]v_prememp_lru+000020 (??)\r\n[002A2474].backt+000080 ()\r\n\r\n楼上兄弟不是说了么,就是从stack看到的,看到了stack的内容,然后就能找到相应的IY FIX,当然也可能什么都找不到。\r\n\r\n会用kdb的兄弟,就能从dump中间找到crash的关键字。\r\n\r\n至于找到crash的根本原因,那就看这原因是不是已知APAR了。

论坛徽章:
0
10 [报告]
发表于 2008-02-25 10:57 |只看该作者
楼上我说了句错话,原来楼主是bankcomm的mail box。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP