免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: zmvb
打印 上一主题 下一主题

[故障求助] AIX系统日志报错,请过来看看 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2005-09-15 01:02 |只看该作者

AIX系统日志报错,请过来看看

hehe
头痛医脚
不过这里可不行,FC卡有问题

论坛徽章:
0
12 [报告]
发表于 2005-09-19 13:13 |只看该作者

AIX系统日志报错,请过来看看

FC卡已经换了,谢谢各位的帮助。我将这次故障的处理过程简单的规整了一下,如下:

一、问题描述:
IBM S85小型机,AIX4.3.3,存储设备为shark f20
从昨天下午到今天早上6点一直报错,如下:
一、errpt
A7212C7B   0910063005 P H hdisk156 : 0x  DEVICE ACCESS PROBLEM
3074FEB7   0910063005 T H fscsi0         ADAPTER ERROR
3074FEB7   0910020005 T H fscsi0         ADAPTER ERROR
3074FEB7   0910020005 T H fscsi0         ADAPTER ERROR
3074FEB7   0910020005 T H fscsi0         ADAPTER ERROR
A7212C7B   0910020005 P H hdisk141 : 0x  DEVICE ACCESS PROBLEM
3074FEB7   0910020005 T H fscsi0         ADAPTER ERROR
3074FEB7   0910020005 T H fscsi0         ADAPTER ERROR
3074FEB7   0910010505 T H fscsi0         ADAPTER ERROR
3074FEB7   0910010505 T H fscsi0         ADAPTER ERROR
3074FEB7   0910010505 T H fscsi0         ADAPTER ERROR
F1F33C8F   0910010505 I H hdisk61 : 0x   FE50
A39F8A49   0910010505 T S syserrlg       ERROR LOGGING BUFFER OVERFLOW
3074FEB7   0910001705 T H fscsi0         ADAPTER ERROR
3074FEB7   0910001705 T H fscsi0         ADAPTER ERROR
3074FEB7   0910001705 T H fscsi0         ADAPTER ERROR
3074FEB7   0910001705 T H fscsi0         ADAPTER ERROR
3074FEB7   0910001705 T H fscsi0         ADAPTER ERROR
二、errpt -aj A7212C7B:
LABEL:          VPATH_DEVICE_OFFLIN
IDENTIFIER:     A7212C7B

Date/Time:       Fri Sep  9 15:56:31
Sequence Number: 18444
Machine Id:      0001534A4C00
Node Id:         sjz2q_jf2
Class:           H
Type:            PERM
Resource Name:   hdisk220 : 0x
Resource Class:  NONE
Resource Type:   NONE
Location:        NONE
VPD:

Description
DEVICE ACCESS PROBLEM

Probable Causes
DISK
SCSI ADAPTER
SCSI CABLE
Failure Causes
DISK
SCSI ADAPTER
CABLE LOOSE OR DEFECTIVE

       Recommended Actions
       PERFORM PROBLEM DETERMINATION ON SCSI TARGET DEVICE
       PERFORM PROBLEM DETERMINATION ON HOST SCSI ADAPTER
               REPLACE SCSI CABLE

Detail Data
SENSE DATA
0000 0002 00C7 5579 0000 0003 0000 0000
三、errtp -aj 3074FEB7:
LABEL:          FSCSI_ERR4
IDENTIFIER:     3074FEB7

Date/Time:       Fri Sep  9 20:52:19
Sequence Number: 20374
Machine Id:      0001534A4C00
Node Id:         sjz2q_jf2
Class:           H
Type:            TEMP
Resource Name:   fscsi0
Resource Class:  driver
Resource Type:   efscsi
Location:        30-70-01

Description
ADAPTER ERROR

Probable Causes
ADAPTER HARDWARE OR CABLE
ADAPTER MICROCODE
FIBRE CHANNEL SWITCH OR FC-AL HUB
Failure Causes
ADAPTER
CABLES AND CONNECTIONS
DEVICE

       Recommended Actions
       PERFORM PROBLEM DETERMINATION PROCEDURES
       CHECK CABLES AND THEIR CONNECTIONS
       VERIFY DEVICE CONFIGURATION

Detail Data
SENSE DATA
0000 0000 0000 00B1 0000 0045 0200 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 1700 0000 0000
0001 1200 7D7B 02A6 0000 0000 0000 0000 0000 0000 4814 5A62 3980 10B2 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 422F 0000 5112 0002 0000 0100 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0069 1000 0000
C926 0A96 5005 0763 00C0 84F3 0300 0000 0000 0000 0000 0000 0000 0000 0000 0000
3002 C000
四、errpt -aj F1F33C8F:
LABEL:          VPATH_DEVICE_ONLINE
IDENTIFIER:     F1F33C8F

Date/Time:       Fri Sep  9 15:56:56
Sequence Number: 18451
Machine Id:      0001534A4C00
Node Id:         sjz2q_jf2
Class:           H
Type:            INFO
Resource Name:   hdisk91 : 0x
Resource Class:  NONE
Resource Type:   NONE
Location:        NONE
VPD:

Description
FE50
Probable Causes
DISK
SCSI ADAPTER
SCSI CABLE

Failure Causes
DISK
SCSI ADAPTER
CABLE LOOSE OR DEFECTIVE

       Recommended Actions
       PERFORM PROBLEM DETERMINATION ON SCSI TARGET DEVICE
       PERFORM PROBLEM DETERMINATION ON HOST SCSI ADAPTER
               REPLACE SCSI CABLE

Detail Data
SENSE DATA
0000 0001 068A 1BB8 0000 0000 0000 0000
五、errpt -aj A39F8A49:
LABEL:          LOST_EVENTS
IDENTIFIER:     A39F8A49

Date/Time:       Fri Sep  9 15:56:31
Sequence Number: 18432
Machine Id:      0001534A4C00
Node Id:         sjz2q_jf2
Class:           S
Type:            TEMP
Resource Name:   syserrlg

Description
ERROR LOGGING BUFFER OVERFLOW

Probable Causes
EXCESSIVE LOGGING BY SOFTWARE PROGRAM

Install Causes
BUFFER SIZE SET TOO SMALL

       Recommended Actions
       INCREASE BUFFER SIZE
Failure Causes
EXCESSIVE LOGGING BY SOFTWARE PROGRAM

       Recommended Actions
       IDENTIFY OFFENDING SOFTWARE COMPONENT
       CORRECT THEN RETRY OFFENDING SOFTWARE COMPONENT

Detail Data
ERROR ID OF FIRST EVENT DISCARDED
3074FEB7
ERROR ID OF LAST EVENT DISCARDED
A7212C7B
NUMBER OF EVENTS DISCARDED
10
六、lsvpcfg:
vpath0 (Avail pv vg_jf4) 50018267 = hdisk2 (Avail ) hdisk123 (Avail ) hdisk244 (Avail ) hdisk365 (Av
ail )
vpath1 (Avail pv vg_jf5) 50118267 = hdisk3 (Avail ) hdisk124 (Avail ) hdisk245 (Avail ) hdisk366 (Av
ail )
vpath2 (Avail pv vgoffline_bak) 50218267 = hdisk4 (Avail ) hdisk125 (Avail ) hdisk246 (Avail ) hdisk
367 (Avail )
vpath3 (Avail pv vgoffline) 50318267 = hdisk5 (Avail ) hdisk126 (Avail ) hdisk247 (Avail ) hdisk368
(Avail )
vpath4 (Avail pv vgoffline) 50418267 = hdisk6 (Avail ) hdisk127 (Avail ) hdisk248 (Avail ) hdisk369
(Avail )
vpath5 (Avail pv vg_jf7) 50518267 = hdisk7 (Avail ) hdisk128 (Avail ) hdisk249 (Avail ) hdisk370 (Av
ail )
vpath6 (Avail pv vg_jf6) 50618267 = hdisk8 (Avail ) hdisk129 (Avail ) hdisk250 (Avail ) hdisk371 (Av
ail )
vpath7 (Avail ) 50818267 = hdisk9 (Avail pv ) hdisk130 (Avail pv ) hdisk251 (Avail pv ) hdisk372 (Av
ail pv )
vpath8 (Avail ) 50918267 = hdisk10 (Avail pv ) hdisk131 (Avail pv ) hdisk252 (Avail pv ) hdisk373 (A
vail pv )
vpath9 (Avail ) 50A18267 = hdisk11 (Avail pv ) hdisk132 (Avail pv ) hdisk253 (Avail pv ) hdisk374 (A
vail pv )
vpath10 (Avail ) 50B18267 = hdisk12 (Avail pv ) hdisk133 (Avail pv ) hdisk254 (Avail pv ) hdisk375 (
Avail pv )
七、datapath query device:
================================================================
Path#              Adapter/Hard Disk    State     Mode     Select     Errors
   0                  fscsi0/hdisk2     DEAD   NORMAL   51116333         13
   1                fscsi0/hdisk123     DEAD   NORMAL   51297361          9
   2                fscsi1/hdisk244     OPEN   NORMAL   52338582          0
   3                fscsi1/hdisk365     OPEN   NORMAL   52481340          0

DEV#:   1  DEVICE NAME: vpath1  TYPE: 2105F20   SERIAL: 50118267
POLICY:    Optimized
================================================================
Path#              Adapter/Hard Disk    State     Mode     Select     Errors
   0                  fscsi0/hdisk3     DEAD   NORMAL   21086155          5
   1                fscsi0/hdisk124     DEAD   NORMAL   21159271         11
   2                fscsi1/hdisk245     OPEN   NORMAL   21274539          0
   3                fscsi1/hdisk366     OPEN   NORMAL   21335545          0

DEV#:   2  DEVICE NAME: vpath2  TYPE: 2105F20   SERIAL: 50218267
POLICY:    Optimized
================================================================
是不是shark的一条光纤通路有问题?想请教到底是哪的问题,会不会对应用或数据造成影响。谢谢

二、chinaunix回帖:

回帖一:
一般shark和主机连接的san拓扑应该是这样:

fcs0 ---->; switch1 ---->; cluster1 HBA1
                           ---->; cluster2 HBA1
fcs1 ---->; switch2 ---->; cluster1 HBA2
                           ---->; cluster2 HBA2

根据拓扑分析,因该不是shark的问题,故障应该处在fcs0或者switch1上。估计交换机的面大,建议你登录到交换机看看错误日志。

回帖二、
第一个光纤通道有问题,由于Shark中的两个Host BAY不可能同时坏,且另一个光纤通道也可以证明Host BAY是正常的,因此初步诊断为:
不是光交换机就是HBA卡的问题,要不就是光纤交换机到HOST的光纤断了!!!

回帖三、
看错误报告,和网卡一点关系都没有。

0           fscsi0  DEGRAD   ACTIVE  548297959       1190    398      36
这表示fscsi0性能下降。这一路肯定有问题

三、进一步诊断:
# datapath query adapter

Active Adapters :2

Adpt#     Adapter Name   State     Mode     Select     Errors  Paths  Active
    0           fscsi0  DEGRAD   ACTIVE  548297959       1190    398      36
1           fscsi1  NORMAL   ACTIVE 1729653468          0    398     210
另外,两台S85为OPS,并且做了HA,只有一台(jf2)上报错,另一台每报错。到机房观察S85背面的适配卡,发现有一块FC卡的指示灯不亮了。

四、结论:
jf2的一块FC卡坏掉了,需要更换。(两块FC卡,采用双通道负荷分担方式工作)

五、附录:
FC卡:主要用于主机与FC设备之间的连接。

六、网卡更换步骤:
1、        提前做好系统备份(mksysb)
2、        停每日凌晨的定时任务(零点前)
3、        停应用进程及数据库
4、        停HA(smitty clstop)及S85小型机(shutdown –F)
5、        换网卡
6、        启S85小型机
7、        将网卡的id号在shark上进行更新
8、        删除存储设备(rmdev)
9、        配置设备并把设备软件安装到系统中(cfgmgr)
10、        对硬件进行测试(lspv等)
11、        启HA(数据库)、各应用进程
12、        应用测试
13、        启每日凌晨的定时任务
14、        做系统备份

论坛徽章:
0
13 [报告]
发表于 2005-09-19 16:18 |只看该作者

AIX系统日志报错,请过来看看

为什么把FC卡叫做网卡呢,真是够晕的啊。

论坛徽章:
0
14 [报告]
发表于 2012-07-05 23:38 |只看该作者
判断故障,理清逻辑线路很重要,学习了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP