- 论坛徽章:
- 0
|
AIX系统日志报错,请过来看看
FC卡已经换了,谢谢各位的帮助。我将这次故障的处理过程简单的规整了一下,如下:
一、问题描述:
IBM S85小型机,AIX4.3.3,存储设备为shark f20
从昨天下午到今天早上6点一直报错,如下:
一、errpt
A7212C7B 0910063005 P H hdisk156 : 0x DEVICE ACCESS PROBLEM
3074FEB7 0910063005 T H fscsi0 ADAPTER ERROR
3074FEB7 0910020005 T H fscsi0 ADAPTER ERROR
3074FEB7 0910020005 T H fscsi0 ADAPTER ERROR
3074FEB7 0910020005 T H fscsi0 ADAPTER ERROR
A7212C7B 0910020005 P H hdisk141 : 0x DEVICE ACCESS PROBLEM
3074FEB7 0910020005 T H fscsi0 ADAPTER ERROR
3074FEB7 0910020005 T H fscsi0 ADAPTER ERROR
3074FEB7 0910010505 T H fscsi0 ADAPTER ERROR
3074FEB7 0910010505 T H fscsi0 ADAPTER ERROR
3074FEB7 0910010505 T H fscsi0 ADAPTER ERROR
F1F33C8F 0910010505 I H hdisk61 : 0x FE50
A39F8A49 0910010505 T S syserrlg ERROR LOGGING BUFFER OVERFLOW
3074FEB7 0910001705 T H fscsi0 ADAPTER ERROR
3074FEB7 0910001705 T H fscsi0 ADAPTER ERROR
3074FEB7 0910001705 T H fscsi0 ADAPTER ERROR
3074FEB7 0910001705 T H fscsi0 ADAPTER ERROR
3074FEB7 0910001705 T H fscsi0 ADAPTER ERROR
二、errpt -aj A7212C7B:
LABEL: VPATH_DEVICE_OFFLIN
IDENTIFIER: A7212C7B
Date/Time: Fri Sep 9 15:56:31
Sequence Number: 18444
Machine Id: 0001534A4C00
Node Id: sjz2q_jf2
Class: H
Type: PERM
Resource Name: hdisk220 : 0x
Resource Class: NONE
Resource Type: NONE
Location: NONE
VPD:
Description
DEVICE ACCESS PROBLEM
Probable Causes
DISK
SCSI ADAPTER
SCSI CABLE
Failure Causes
DISK
SCSI ADAPTER
CABLE LOOSE OR DEFECTIVE
Recommended Actions
PERFORM PROBLEM DETERMINATION ON SCSI TARGET DEVICE
PERFORM PROBLEM DETERMINATION ON HOST SCSI ADAPTER
REPLACE SCSI CABLE
Detail Data
SENSE DATA
0000 0002 00C7 5579 0000 0003 0000 0000
三、errtp -aj 3074FEB7:
LABEL: FSCSI_ERR4
IDENTIFIER: 3074FEB7
Date/Time: Fri Sep 9 20:52:19
Sequence Number: 20374
Machine Id: 0001534A4C00
Node Id: sjz2q_jf2
Class: H
Type: TEMP
Resource Name: fscsi0
Resource Class: driver
Resource Type: efscsi
Location: 30-70-01
Description
ADAPTER ERROR
Probable Causes
ADAPTER HARDWARE OR CABLE
ADAPTER MICROCODE
FIBRE CHANNEL SWITCH OR FC-AL HUB
Failure Causes
ADAPTER
CABLES AND CONNECTIONS
DEVICE
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES
CHECK CABLES AND THEIR CONNECTIONS
VERIFY DEVICE CONFIGURATION
Detail Data
SENSE DATA
0000 0000 0000 00B1 0000 0045 0200 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 1700 0000 0000
0001 1200 7D7B 02A6 0000 0000 0000 0000 0000 0000 4814 5A62 3980 10B2 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 422F 0000 5112 0002 0000 0100 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0069 1000 0000
C926 0A96 5005 0763 00C0 84F3 0300 0000 0000 0000 0000 0000 0000 0000 0000 0000
3002 C000
四、errpt -aj F1F33C8F:
LABEL: VPATH_DEVICE_ONLINE
IDENTIFIER: F1F33C8F
Date/Time: Fri Sep 9 15:56:56
Sequence Number: 18451
Machine Id: 0001534A4C00
Node Id: sjz2q_jf2
Class: H
Type: INFO
Resource Name: hdisk91 : 0x
Resource Class: NONE
Resource Type: NONE
Location: NONE
VPD:
Description
FE50
Probable Causes
DISK
SCSI ADAPTER
SCSI CABLE
Failure Causes
DISK
SCSI ADAPTER
CABLE LOOSE OR DEFECTIVE
Recommended Actions
PERFORM PROBLEM DETERMINATION ON SCSI TARGET DEVICE
PERFORM PROBLEM DETERMINATION ON HOST SCSI ADAPTER
REPLACE SCSI CABLE
Detail Data
SENSE DATA
0000 0001 068A 1BB8 0000 0000 0000 0000
五、errpt -aj A39F8A49:
LABEL: LOST_EVENTS
IDENTIFIER: A39F8A49
Date/Time: Fri Sep 9 15:56:31
Sequence Number: 18432
Machine Id: 0001534A4C00
Node Id: sjz2q_jf2
Class: S
Type: TEMP
Resource Name: syserrlg
Description
ERROR LOGGING BUFFER OVERFLOW
Probable Causes
EXCESSIVE LOGGING BY SOFTWARE PROGRAM
Install Causes
BUFFER SIZE SET TOO SMALL
Recommended Actions
INCREASE BUFFER SIZE
Failure Causes
EXCESSIVE LOGGING BY SOFTWARE PROGRAM
Recommended Actions
IDENTIFY OFFENDING SOFTWARE COMPONENT
CORRECT THEN RETRY OFFENDING SOFTWARE COMPONENT
Detail Data
ERROR ID OF FIRST EVENT DISCARDED
3074FEB7
ERROR ID OF LAST EVENT DISCARDED
A7212C7B
NUMBER OF EVENTS DISCARDED
10
六、lsvpcfg:
vpath0 (Avail pv vg_jf4) 50018267 = hdisk2 (Avail ) hdisk123 (Avail ) hdisk244 (Avail ) hdisk365 (Av
ail )
vpath1 (Avail pv vg_jf5) 50118267 = hdisk3 (Avail ) hdisk124 (Avail ) hdisk245 (Avail ) hdisk366 (Av
ail )
vpath2 (Avail pv vgoffline_bak) 50218267 = hdisk4 (Avail ) hdisk125 (Avail ) hdisk246 (Avail ) hdisk
367 (Avail )
vpath3 (Avail pv vgoffline) 50318267 = hdisk5 (Avail ) hdisk126 (Avail ) hdisk247 (Avail ) hdisk368
(Avail )
vpath4 (Avail pv vgoffline) 50418267 = hdisk6 (Avail ) hdisk127 (Avail ) hdisk248 (Avail ) hdisk369
(Avail )
vpath5 (Avail pv vg_jf7) 50518267 = hdisk7 (Avail ) hdisk128 (Avail ) hdisk249 (Avail ) hdisk370 (Av
ail )
vpath6 (Avail pv vg_jf6) 50618267 = hdisk8 (Avail ) hdisk129 (Avail ) hdisk250 (Avail ) hdisk371 (Av
ail )
vpath7 (Avail ) 50818267 = hdisk9 (Avail pv ) hdisk130 (Avail pv ) hdisk251 (Avail pv ) hdisk372 (Av
ail pv )
vpath8 (Avail ) 50918267 = hdisk10 (Avail pv ) hdisk131 (Avail pv ) hdisk252 (Avail pv ) hdisk373 (A
vail pv )
vpath9 (Avail ) 50A18267 = hdisk11 (Avail pv ) hdisk132 (Avail pv ) hdisk253 (Avail pv ) hdisk374 (A
vail pv )
vpath10 (Avail ) 50B18267 = hdisk12 (Avail pv ) hdisk133 (Avail pv ) hdisk254 (Avail pv ) hdisk375 (
Avail pv )
七、datapath query device:
================================================================
Path# Adapter/Hard Disk State Mode Select Errors
0 fscsi0/hdisk2 DEAD NORMAL 51116333 13
1 fscsi0/hdisk123 DEAD NORMAL 51297361 9
2 fscsi1/hdisk244 OPEN NORMAL 52338582 0
3 fscsi1/hdisk365 OPEN NORMAL 52481340 0
DEV#: 1 DEVICE NAME: vpath1 TYPE: 2105F20 SERIAL: 50118267
POLICY: Optimized
================================================================
Path# Adapter/Hard Disk State Mode Select Errors
0 fscsi0/hdisk3 DEAD NORMAL 21086155 5
1 fscsi0/hdisk124 DEAD NORMAL 21159271 11
2 fscsi1/hdisk245 OPEN NORMAL 21274539 0
3 fscsi1/hdisk366 OPEN NORMAL 21335545 0
DEV#: 2 DEVICE NAME: vpath2 TYPE: 2105F20 SERIAL: 50218267
POLICY: Optimized
================================================================
是不是shark的一条光纤通路有问题?想请教到底是哪的问题,会不会对应用或数据造成影响。谢谢
二、chinaunix回帖:
回帖一:
一般shark和主机连接的san拓扑应该是这样:
fcs0 ---->; switch1 ---->; cluster1 HBA1
---->; cluster2 HBA1
fcs1 ---->; switch2 ---->; cluster1 HBA2
---->; cluster2 HBA2
根据拓扑分析,因该不是shark的问题,故障应该处在fcs0或者switch1上。估计交换机的面大,建议你登录到交换机看看错误日志。
回帖二、
第一个光纤通道有问题,由于Shark中的两个Host BAY不可能同时坏,且另一个光纤通道也可以证明Host BAY是正常的,因此初步诊断为:
不是光交换机就是HBA卡的问题,要不就是光纤交换机到HOST的光纤断了!!!
回帖三、
看错误报告,和网卡一点关系都没有。
0 fscsi0 DEGRAD ACTIVE 548297959 1190 398 36
这表示fscsi0性能下降。这一路肯定有问题
三、进一步诊断:
# datapath query adapter
Active Adapters :2
Adpt# Adapter Name State Mode Select Errors Paths Active
0 fscsi0 DEGRAD ACTIVE 548297959 1190 398 36
1 fscsi1 NORMAL ACTIVE 1729653468 0 398 210
另外,两台S85为OPS,并且做了HA,只有一台(jf2)上报错,另一台每报错。到机房观察S85背面的适配卡,发现有一块FC卡的指示灯不亮了。
四、结论:
jf2的一块FC卡坏掉了,需要更换。(两块FC卡,采用双通道负荷分担方式工作)
五、附录:
FC卡:主要用于主机与FC设备之间的连接。
六、网卡更换步骤:
1、 提前做好系统备份(mksysb)
2、 停每日凌晨的定时任务(零点前)
3、 停应用进程及数据库
4、 停HA(smitty clstop)及S85小型机(shutdown –F)
5、 换网卡
6、 启S85小型机
7、 将网卡的id号在shark上进行更新
8、 删除存储设备(rmdev)
9、 配置设备并把设备软件安装到系统中(cfgmgr)
10、 对硬件进行测试(lspv等)
11、 启HA(数据库)、各应用进程
12、 应用测试
13、 启每日凌晨的定时任务
14、 做系统备份 |
|