免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: shadowyu_cz
打印 上一主题 下一主题

[小机硬件] P630莫名死机 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2008-01-29 12:29 |只看该作者
3593         TS_DEATH_TR        Dec 26 14:31:30         czscp1         U        UNKN        topsvcs       
  3583         TS_DEATH_TR        Jun 28 16:48:12         czscp1         U        UNKN        topsvcs       
  3575         TS_DEATH_TR        Jun 28 16:47:10         czscp1         U        UNKN        topsvcs       
  3553         TS_DEATH_TR        Apr 13 17:01:42         czscp1         U        UNKN        topsvcs       
  3541         TS_DEATH_TR        Oct 31 01:40:16         czscp1         U        UNKN        topsvcs       
  3525         TS_DEATH_TR        Oct 31 01:07:26         czscp1         U        UNKN        topsvcs       
  3515         TS_DEATH_TR        Oct 31 00:55:46         czscp1         U        UNKN        topsvcs       
  3491         TS_DEATH_TR        Oct 30 23:19:24         czscp1         U        UNKN        topsvcs       
  3436         TS_DEATH_TR        Sep 19 23:26:35         czscp1         U        UNKN        topsvcs       
  3434         TS_DEATH_TR        Sep 19 23:02:00         czscp1         U        UNKN        topsvcs       
  3416         TS_DEATH_TR        Sep 16 00:46:06         czscp1         U        UNKN        topsvcs       
  3414         TS_DEATH_TR        Sep 15 23:02:23         czscp1         U        UNKN        topsvcs       
  3406         TS_DEATH_TR        Sep 15 00:58:25         czscp1         U        UNKN        topsvcs       
  3404         TS_DEATH_TR        Sep 14 23:14:50         czscp1         U        UNKN        topsvcs       
  3380         TS_DEATH_TR        Apr 3  23:15:33         czscp1         U        UNKN        topsvcs       
  3084         TS_DEATH_TR        Jul 19 16:46:39         czscp1         U        UNKN        topsvcs       
  3083         TS_DEATH_TR        Jul 19 16:46:39         czscp1         U        UNKN        topsvcs       
  3082         TS_DEATH_TR        Jul 19 16:44:23         czscp1         U        UNKN        topsvcs       
  3081         TS_DEATH_TR        Jul 19 16:44:21         czscp1         U        UNKN        topsvcs       
  3066         TS_DEATH_TR        Jul 3  14:32:12         czscp1         U        UNKN        topsvcs       
  3065         TS_DEATH_TR        Jul 3  14:27:15         czscp1         U        UNKN        topsvcs       
  3064         TS_DEATH_TR        Jul 3  14:26:49         czscp1         U        UNKN        topsvcs       
  3044         TS_DEATH_TR        Jun 28 16:56:55         czscp1         U        UNKN        topsvcs       
  3041         TS_DEATH_TR        Jun 28 16:48:53         czscp1         U        UNKN        topsvcs       
  3038         TS_DEATH_TR        Jun 27 15:38:14         czscp1         U        UNKN        topsvcs       
  3033         TS_DEATH_TR        Jun 27 15:35:17         czscp1         U        UNKN        topsvcs       
  3028         TS_DEATH_TR        Jun 27 15:31:47         czscp1         U        UNKN        topsvcs       
  3023         TS_DEATH_TR        Jun 27 15:13:47         czscp1         U        UNKN        topsvcs       
  3018         TS_DEATH_TR        Jun 27 14:10:02         czscp1         U        UNKN        topsvcs       
  3013         TS_DEATH_TR        Jun 27 10:46:37         czscp1         U        UNKN        topsvcs       
  3001         TS_DEATH_TR        Jan 10 02:03:17         czscp1         U        UNKN        topsvcs       
  2995         TS_DEATH_TR        Jan 10 00:20:32         czscp1         U        UNKN        topsvcs       
  2983         TS_DEATH_TR        Jan 9  23:53:26         czscp1         U        UNKN        topsvcs       
  2979         TS_DEATH_TR        Nov 30 09:39:15         czscp1         U        UNKN        topsvcs       
  2887         TS_DEATH_TR        Jun 30 01:59:38         czscp1         U        UNKN        topsvcs       
  2875         TS_DEATH_TR        Jun 30 01:41:25         czscp1         U        UNKN        topsvcs


在过去的时间里多次出现HA环境中网卡侦测丢失的现象,所以我需要相应时间的hacmp.out文件来协助判断paging space耗尽的原因!


如果方便,请收集/tmp下所有hacmp开头的文件,打包发送给我,谢谢!

论坛徽章:
0
12 [报告]
发表于 2008-01-29 13:13 |只看该作者
LS的太强,比IBMer强多了

论坛徽章:
0
13 [报告]
发表于 2008-01-29 13:17 |只看该作者
到底是高手啊

论坛徽章:
0
14 [报告]
发表于 2008-01-29 13:39 |只看该作者
25号我们在现场发现这台机器对任何命令和操作都没有反应,所以就关电重启的。重启后用errpt没有发现什么告警,做了小型机的系统后备带以后,用topas发现文本内存的占用率又达到84.9%,但是用lsps -a又只有1%的占用率,这两个占用率相差很大,不知道为什么。topas显示的那个一直也没有降下来。

论坛徽章:
0
15 [报告]
发表于 2008-01-29 13:47 |只看该作者
你是说nocomp内存的比例很高么?

能提供hacmp.out及其他hacmp开头的文件么?

如果能够提供3天以上(24小时,10min一次record)的nmon文件,相信能够找出来你设备当前的问题所在!

我看到之前你这套系统7133坏过盘,SSA卡换过cache,很多记录都能看到,但是因为是snap -gc,所以hacmp analysis和performance的tunning需要的数据就不够了。

谢谢其他兄弟的关注,我想说的是IBMer里面也有很多强人的,大家就事论事,别拿他们说事就好了。

论坛徽章:
0
16 [报告]
发表于 2008-01-29 13:51 |只看该作者
文件已经打包发到你邮箱咯,辛苦你啦。

论坛徽章:
0
17 [报告]
发表于 2008-01-29 14:03 |只看该作者
7133的盘去年、今年都换过,cache是去年10月份换的,我把能找到的hacmp.out文件都打包了,不知道还需要什么文件吗?

论坛徽章:
0
18 [报告]
发表于 2008-01-29 14:14 |只看该作者
暂时不需要了,需要的nmon你之前没做记录的话,现在一时也拿不出来的,,贴个topas输出到论坛就好了。

我在收hacmp的包。

论坛徽章:
0
19 [报告]
发表于 2008-01-29 15:09 |只看该作者
Network  KBPS   I-Pack  O-Pack   KB-In  KB-Out  Waitqueue   0.0
en1       0.5        8       5     0.0     1.0
lo0       0.5        4       4     1.0     0.0  PAGING           MEMORY
en2       0.0        6       4     0.0     0.0  Faults        0  Real,MB    4095
                                                Steals        0  % Comp     16.0
Disk    Busy%     KBPS     TPS KB-Read KB-Writ  PgspIn        0  % Noncomp  84.9
hdisk1    0.0      0.0       0     0.0     0.0  PgspOut       0  % Client   74.9
hdisk0    0.0      0.0       0     0.0     0.0  PageIn        0
hdisk2    0.0      0.0       0     0.0     0.0  PageOut       0  PAGING SPACE
                                                Sios          0  Size,MB    4096
Name            PID CPU% PgSp Owner                              % Used      0.5
Network  KBPS   I-Pack  O-Pack   KB-In  KB-Out  Waitqueue   0.0
Tue Jan 29 15:13:44 2008   Interval:  2         Cswitch     402  Readch      716
                                                Syscall    1228  Writech     757
Kernel    0.0   |                            |  Reads        13  Rawin         0
User      0.0   |                            |  Writes        4  Ttyout        0
Wait      0.0   |                            |  Forks         0  Igets         0
Idle    100.0   |############################|  Execs         0  Namei         0
                                                Runqueue    0.0  Dirblk        0
Network  KBPS   I-Pack  O-Pack   KB-In  KB-Out  Waitqueue   0.0
en2       1.0        7       2     1.0     1.0
en1       0.5        7       3     1.0     0.0  PAGING           MEMORY
hatsd        524424  0.0  6.1 root              ClientV3       0   "q" to quit
Exiting

[ 本帖最后由 shadowyu_cz 于 2008-1-29 15:16 编辑 ]

1.JPG (120.17 KB, 下载次数: 59)

1.JPG

论坛徽章:
0
20 [报告]
发表于 2008-01-29 15:32 |只看该作者
0 Wed Dec 26 14:31:35 BEIST 2007 Adapter 192.168.1.3 is no longer available for use as a standby, due to either a standby adapter failure or IP address takeover.
         0 Wed Dec 26 14:31:46 BEIST 2007 CLINFO Version 4.2.
         0 Wed Dec 26 14:31:51 BEIST 2007 Standby adapter 192.168.1.3 is now available.
         0 Wed Dec 26 14:32:03 BEIST 2007 CLINFO Version 4.2.
         0 Mon Jan  7 12:00:01 BEIST 2008
INIT: Paging space low!
         0 Mon Jan  7 12:00:01 BEIST 2008 Jan  7 12:00:01 czscp1 clstrmgrES[753864]: Mon Jan  7 12:00:01 clstrmgr: caught DANGER signal.
         0 Mon Jan  7 15:00:01 BEIST 2008
INIT: Paging space low!
         0 Mon Jan  7 15:00:01 BEIST 2008 Jan  7 15:00:01 czscp1 clstrmgrES[753864]: Mon Jan  7 15:00:01 clstrmgr: caught DANGER signal.
         0 Mon Jan  7 16:40:01 BEIST 2008
INIT: Paging space low!
         0 Mon Jan  7 16:40:01 BEIST 2008 Jan  7 16:40:01 czscp1 clstrmgrES[753864]: Mon Jan  7 16:40:01 clstrmgr: caught DANGER signal.
         0 Fri Jan 25 09:56:46 BEIST 2008

*****************************************************************************


翻遍了文件,只发现偶尔有192.168.1.3这网卡退出和加入standby的事件,但就次数和时间来推算,不足以引起paging space耗尽。

然后发现paging space消耗过高的警告从7号的12点就开始了。

要不你回想一下这天对这系统有过什么变更么?这很重要!可能当时无意识改动了什么,但是结果却是在无意中引发了paging的消耗过高。

nocomp内存过高没关系的,系统会自动调节的。如果comp%有需要,nocomp%会自动释放资源的。

AIX对内存的使用原则是有多少尽量就用多少的原则。所以常会看到free很少。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP