免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 6726 | 回复: 17
打印 上一主题 下一主题

[小机硬件] IBM小型机down机问题,有日志,各位大虾帮忙分析一下,谢谢 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2005-12-12 10:21 |只看该作者 |倒序浏览
先说下环境:
机器:IBM P630双机,SSA 7133阵列,做的raid 1
数据库:informix HDR方式
软件:装了一些应用软件
双机:IBM HACMP 4.5,双机热备

今天早上到机房,这2台小型机都down掉了,LCD上显示代码为9411,重新移动之后,1机恢复正常
好象2台机器down机时间不是一样。


顺便帖下文件系统信息:
第一台机器:
# df -k
Filesystem    1024-blocks      Free %Used    Iused %Iused Mounted on
/dev/hd4           131072    100316   24%     1493     3% /
/dev/hd2          1703936   1001948   42%    22099     6% /usr
/dev/hd9var        262144     57556   79%      539     1% /var
/dev/hd3           524288    489816    7%      304     1% /tmp
/dev/hd1           131072    126852    4%       18     1% /home
/proc                   -         -    -         -     -  /proc
/dev/hd10opt       131072    119988    9%      339     2% /opt
/dev/lvinformix     1572864    366884   77%     2332     1% /opt/informix
/dev/lvdbtemp     1048576   1014420    4%       18     1% /opt/informix/temp

第二台机器:

# df -k
Filesystem    1024-blocks      Free %Used    Iused %Iused Mounted on
/dev/hd4           131072     48612   63%     1610     3% /
/dev/hd2          1572864    874688   45%    22136     6% /usr
/dev/hd9var        262144     69496   74%      512     1% /var
/dev/hd3           524288    195160   63%      197     1% /tmp
/dev/hd1           131072    126852    4%       18     1% /home
/proc                   -         -    -         -     -  /proc
/dev/hd10opt       131072    119988    9%      338     2% /opt
/dev/lvinformix     1572864    517764   68%     2329     1% /opt/informix
/dev/lvdbtemp     1048576   1015616    4%       16     1% /opt/informix/temp

感觉这个地方还有有些问题,var文件系统空间是否有点小,需要扩大?

另外,这2台机器内存都为2G,而交换空间为512M,是否需要扩一下交换空间的大小?


查看错误日志如下:

第一台机器:
# errpt |more
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
C092AFE4   1212093805 I O ctcasd         ctcasd Daemon Started
A6DF45AA   1212093805 I O RMCdaemon      The daemon is started.
C0AA5338   1212093605 U S SYSDUMP        SYSTEM DUMP
BFE4C025   1212093505 P H sysplanar0     UNDETERMINED ERROR
9D035E4D   1212002105 P S SYSVMM         DATA STORAGE INTERRUPT, PROCESSOR
9DBCFDEE   1212093705 T O errdemon       ERROR LOGGING TURNED ON

看了下,估计是
9D035E4D   1212002105 P S SYSVMM         DATA STORAGE INTERRUPT, PROCESSOR
引起了小型机down机
# errpt -aj 9D035E4D |more
---------------------------------------------------------------------------
LABEL:          DSI_PROC
IDENTIFIER:     9D035E4D

Date/Time:       Mon Dec 12 00:21:43 BEIS
Sequence Number: 6469
Machine Id:      005E899C4C00
Node Id:         host1
Class:           S
Type:            PERM
Resource Name:   SYSVMM         

Description
DATA STORAGE INTERRUPT, PROCESSOR

Probable Causes
SOFTWARE PROGRAM

Failure Causes
SOFTWARE PROGRAM

        Recommended Actions
        IF PROBLEM PERSISTS THEN DO THE FOLLOWING
        CONTACT APPROPRIATE SERVICE REPRESENTATIVE

Detail Data
DATA STORAGE INTERRUPT STATUS REGISTER
0A00 0000
SEGMENT REGISTER, SEGREG
0000 0000
DATA STORAGE INTERRUPT ADDRESS REGISTER
0000 0004
EXVAL
0000 0086

第二台机器:
# errpt |more
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
C092AFE4   1212094305 I O ctcasd         ctcasd Daemon Started
A6DF45AA   1212094305 I O RMCdaemon      The daemon is started.
C0AA5338   1212094105 U S SYSDUMP        SYSTEM DUMP
BFE4C025   1212093505 P H sysplanar0     UNDETERMINED ERROR
83F4B3CB   1212061005 P O SYSPFS         UNABLE TO ALLOCATE SPACE IN KERNEL HEAP
9DBCFDEE   1212094205 T O errdemon       ERROR LOGGING TURNED ON
7975092C   1212060905 T O SYSPFS         ALLOCATED KERNEL HEAP SPACE AFTER DELAY
E18E984F   1212053505 P S SRC            SOFTWARE PROGRAM ERROR

查看详细信息:
# errpt -aj 7975092C |more
---------------------------------------------------------------------------
LABEL:          JFS_KERNHEAP_DELAY
IDENTIFIER:     7975092C

Date/Time:       Mon Dec 12 06:09:56 BEIS
Sequence Number: 6192
Machine Id:      005E8ADC4C00
Node Id:         host2
Class:           O
Type:            TEMP
Resource Name:   SYSPFS         

Description
ALLOCATED KERNEL HEAP SPACE AFTER DELAY

Failure Causes
SOFTWARE PROGRAM

        Recommended Actions
        IF PROBLEM PERSISTS, CONTACT APPROPRIATE SERVICE REPRESENTATIVE

Detail Data
ADDITIONAL INFORMATION
delay=4, (0 secs)

# errpt -aj 83F4B3CB |more
---------------------------------------------------------------------------
LABEL:          JFS_KERNHEAP_LOW
IDENTIFIER:     83F4B3CB

Date/Time:       Mon Dec 12 06:10:06 BEIS
Sequence Number: 6194
Machine Id:      005E8ADC4C00
Node Id:         host2
Class:           O
Type:            PERM
Resource Name:   SYSPFS         

Description
UNABLE TO ALLOCATE SPACE IN KERNEL HEAP

Failure Causes
SOFTWARE PROGRAM

        Recommended Actions
        IF PROBLEM PERSISTS, CONTACT APPROPRIATE SERVICE REPRESENTATIVE

现在准备将2台机器的var空间扩为512M,交换空间扩为2G,和实际物理内存一样,然后看看结果。。

同时也请各位大虾看看上面的报错信息,帮忙定位一下,以便使问题能够彻底的解决,感激不尽!

论坛徽章:
0
2 [报告]
发表于 2005-12-12 10:32 |只看该作者
看看这两条日志吧,2台机器是几乎同时出问题,然后system dump后down机的。
C0AA5338   1212093605 U S SYSDUMP        SYSTEM DUMP
BFE4C025   1212093505 P H sysplanar0     UNDETERMINED ERROR

论坛徽章:
0
3 [报告]
发表于 2005-12-12 10:42 |只看该作者
有点象电源问题!!请核实一下.

论坛徽章:
0
4 [报告]
发表于 2005-12-12 10:43 |只看该作者
多谢surain
我是早上9点多钟来机房的,然后看到2台机器LCD都显示9411,我手动启动的系统,然后系统开始做dump。大概就是9点35分左右,第二台机器晚一点,9点41分。。

估计真正原因不在这里,应该是其它问题导致系统down机重新启动,但启动到某个地方后停止了,也就是LCD上显示的9411这里,系统这个时候还没有做dump,手动按白色按钮启动后,系统开始做dump,然后启动成功。不过第二台机器由于var空间不足,导致dump不成功,插入磁带机后才成功dump,然后启动系统。

[ 本帖最后由 wushanyink 于 2005-12-12 10:46 编辑 ]

论坛徽章:
0
5 [报告]
发表于 2005-12-12 10:45 |只看该作者
原帖由 zlg88 于 2005-12-12 10:42 发表
有点象电源问题!!请核实一下.


多谢,从哪里可以看出来?

是否电压不稳定?

论坛徽章:
0
6 [报告]
发表于 2005-12-12 10:51 |只看该作者
我觉得也可能是由于软件的问题导致的,建议把系统信息(snap -a)和dump文件提交给IBM分析。

论坛徽章:
0
7 [报告]
发表于 2005-12-12 10:58 |只看该作者
现在正在做diag。。
检查结果出来了。。

One or more errors are logged that have already been
reported to the Service Focal Point (SFP). Use the SFP to
resolve these problems. If the problems have been closed
on the SFP, run the Log Repair Action Service Aid for the
resource that reported the problem.

Use the SFP to resolve these problems,SFP是个什么东东来的?

论坛徽章:
0
8 [报告]
发表于 2005-12-12 11:03 |只看该作者
双机环境,两台机器同时宕机情况极少见,宕机后当然要做dump了!
外部因素可能性极大.

论坛徽章:
0
9 [报告]
发表于 2005-12-12 11:13 |只看该作者
服务处理器存在于CEC中,服务代理是运行在AIX操作系统中的程序,它们负责将系统发生的意外改变和错误信息报告给SFP,SFP是运行在硬件控制台上的程序,它负责错误的过滤、错误数据搜集、Call Home能力(自动通过电话、BP等形式将服务请求通知IBM服务工程师或客户有关人员)。

论坛徽章:
0
10 [报告]
发表于 2005-12-12 11:17 |只看该作者
多谢surain和zlg88,哪该如何查看SFP上的错误信息?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP