免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 11997 | 回复: 17
打印 上一主题 下一主题

[故障求助] AIX中系统报错,目前IO较大,请大家帮忙诊断 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2006-05-29 21:51 |只看该作者 |倒序浏览
各位好!

2台P550机器.共同连接一台TAST T600磁盘阵列.每台主机配置了2块HBA卡,但是各有一块HBA卡连接到TAST T600上.机器4月20日安装完成,5月13日左右开始,每分钟有3-4次左右报错:

#root:/>errpt | more
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
C86ACB7E   0529213706 I H hdisk3         ARRAY CONFIGURATION CHANGED
0148FAED   0529213606 I H dac0           SINGLE CONTROLLER RESTARTED
C86ACB7E   0529213606 I H hdisk3         ARRAY CONFIGURATION CHANGED
0148FAED   0529213606 I H dac0           SINGLE CONTROLLER RESTARTED
C86ACB7E   0529213606 I H hdisk3         ARRAY CONFIGURATION CHANGED
0148FAED   0529213506 I H dac0           SINGLE CONTROLLER RESTARTED
C86ACB7E   0529213506 I H hdisk3         ARRAY CONFIGURATION CHANGED
0148FAED   0529213406 I H dac0           SINGLE CONTROLLER RESTARTED
C86ACB7E   0529213406 I H hdisk3         ARRAY CONFIGURATION CHANGED
0148FAED   0529213406 I H dac0           SINGLE CONTROLLER RESTARTED
C86ACB7E   0529213306 I H hdisk3         ARRAY CONFIGURATION CHANGED
0148FAED   0529213306 I H dac0           SINGLE CONTROLLER RESTARTED
C86ACB7E   0529213206 I H hdisk3         ARRAY CONFIGURATION CHANGED
0148FAED   0529213106 I H dac0           SINGLE CONTROLLER RESTARTED
C86ACB7E   0529213106 I H hdisk3         ARRAY CONFIGURATION CHANGED
0148FAED   0529213106 I H dac0           SINGLE CONTROLLER RESTARTED
C86ACB7E   0529213006 I H hdisk3         ARRAY CONFIGURATION CHANGED
0148FAED   0529213006 I H dac0           SINGLE CONTROLLER RESTARTED

查看详细报错信息:
#root:/>errpt -aj 0148FAED | more
---------------------------------------------------------------------------
LABEL:          FCP_ARRAY_ERR27
IDENTIFIER:     0148FAED

Date/Time:       Mon May 29 21:38:58 BEIST 2006
Sequence Number: 33016
Machine Id:      000A593AD600
Node Id:         sapdev
Class:           H
Type:            INFO
Resource Name:   dac0            
Resource Class:  array
Resource Type:   ibm-dac-V4
Location:        U787B.001.DNW84AD-P1-C2-T1-W200500A0B821040C
VPD:            
        Manufacturer................IBM     
        Machine Type and Model......1722-600        
        Part Number.................12844-00        
        ROS Level and ID............0520

Description
SINGLE CONTROLLER RESTARTED

Probable Causes
A COMMUNICATION OR HARDWARE PROBLEM REPAIRED
LUN MOVED TO A CONTROLLER WITHOUT A PATH

User Causes
ONE CONTROLLER DECONFIGURED BY USER

        Recommended Actions
        IF THIS IS A DUAL CONTROLLER, IT IS IN A
        NON-REDUNDANT CONFIGURATION, RECONFIGURE
        THE DAC WHEN POSSIBLE

Failure Causes
ARRAY CONTROLLER
CABLES AND CONNECTIONS

        Recommended Actions
        NO ACTION NECESSARY

Detail Data
SENSE DATA
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0400 00EE 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 2D3C 9000 F705 3207 0000 0000 0000 0003 0000 0000 E400 0000 0000 0003
0000 0000
---------------------------------------------------------------------------
LABEL:          FCP_ARRAY_ERR27
IDENTIFIER:     0148FAED



#root:/>errpt -aj C86ACB7E | more
---------------------------------------------------------------------------
LABEL:          FCP_ARRAY_ERR10
IDENTIFIER:     C86ACB7E

Date/Time:       Mon May 29 21:39:47 BEIST 2006
Sequence Number: 33017
Machine Id:      000A593AD600
Node Id:         sapdev
Class:           H
Type:            INFO
Resource Name:   hdisk3         
Resource Class:  disk
Resource Type:   array
Location:        U787B.001.DNW84AD-P1-C2-T1-W200500A0B821040C-L1000000000000

Description
ARRAY CONFIGURATION CHANGED

Probable Causes
ARRAY CONTROLLER
CABLES AND CONNECTIONS

Failure Causes
ARRAY CONTROLLER
CABLES AND CONNECTIONS

        Recommended Actions
        NO ACTION NECESSARY

Detail Data
SENSE DATA
0600 1600 0000 0000 0000 0000 0000 0000 0000 0000 0000 19AA 0102 0000 7000 0500
0000 0098 0000 0000 9401 0000 0000 0000 0100 0000 0000 0000 0000 0000 0000 0000
0002 1600 0016 0000 0000 0000 0000 0000 0000 3154 3630 3236 3235 3738 2020 2020
2020 0612 1600 0001 0000 0600 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0005 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 001B 82F2 3035 3239 3036 2F30 3733 3234 3900 0000 0000 0000 0000 0000
0000 0000 2E06 B000 F705 3207 0000 0000 0000 0000 0000 0000 E400 FFFF 0000 0003
0000 0000
---------------------------------------------------------------------------
LABEL:          FCP_ARRAY_ERR10
IDENTIFIER:     C86ACB7E


用iostat 1查看,iowait为26%左右,但是任何一个硬盘都没有读写忙的信息:
tty:      tin         tout    avg-cpu: % user % sys % idle % iowait
          0.0        709.0                0.1   0.2   73.8     26.0

Disks:        % tm_act     Kbps      tps    Kb_read   Kb_wrtn
hdisk1           0.0       0.0       0.0          0         0
hdisk0           0.0       0.0       0.0          0         0
dac0             0.0       0.0       0.0          0         0
dac0-utm         0.0       0.0       0.0          0         0
hdisk2           0.0       0.0       0.0          0         0
hdisk3           0.0       0.0       0.0          0         0
hdisk4           0.0       0.0       0.0          0         0
cd0              0.0       0.0       0.0          0         0

tty:      tin         tout    avg-cpu: % user % sys % idle % iowait
          0.0        695.1                0.1   0.1   74.2     25.6

Disks:        % tm_act     Kbps      tps    Kb_read   Kb_wrtn
hdisk1           0.0       0.0       0.0          0         0
hdisk0           0.0       0.0       0.0          0         0
dac0             0.0       0.0       0.0          0         0
dac0-utm         0.0       0.0       0.0          0         0
hdisk2           0.0       0.0       0.0          0         0
hdisk3           0.0       0.0       0.0          0         0
hdisk4           0.0       0.0       0.0          0         0
cd0              0.0       0.0       0.0          0         0

查看dac;信息如下
#root:/usr/ucb>fget_config -l dar0
dac0 ACTIVE dacNONE ACTIVE
hdisk2   dac0
hdisk3   dac0
hdisk4   dac0
#root:/usr/ucb>fget_config -l dar0
dac0 ACTIVE dacNONE ACTIVE
hdisk2   dacNONE
hdisk3   dacNONE
hdisk4   dacNONE
#root:/usr/ucb>fget_config -l dar0
dac0 ACTIVE dacNONE ACTIVE
hdisk2   dacNONE
hdisk3   dacNONE
hdisk4   dacNONE
dac0 ACTIVE dacNONE ACTIVE
hdisk2   dac0
hdisk3   dac0
hdisk4   dac0


不知道上面的信息是什么意思?由于运行的是公司的ERP系统(SAP+DB2),现在整个系统运行非常缓慢,从系统资源上看,除了iowait到达26%左右,CPU\内存\SWAP都没有问题.数据库的BUFFER命中率94%以上,SAP中的内存管理中也没有瓶径,请各位大侠帮助分析一下原因,最好能给出解决办法.

十分感谢!

论坛徽章:
0
2 [报告]
发表于 2006-05-30 12:40 |只看该作者
关注中......

论坛徽章:
0
3 [报告]
发表于 2006-05-30 12:49 |只看该作者
C86ACB7E   0529213706 I H hdisk3         ARRAY CONFIGURATION CHANGED
写得很明显了,是FAStT600上的contorl切换了,建议用storage management连到fastt600查看log,再分析是什么原因导致切换的。

论坛徽章:
0
4 [报告]
发表于 2006-05-30 21:27 |只看该作者
谢谢aixcq !
我是SAP的BASIS,对存储了解的不多,硬件供货商那里说这个不是问题,他们给的解释是主机2块HBA卡,只有一块连接到FAST T600上,所以会频繁切换,但是系统性能不会受影响.
但是我在DB2和SAP上,反复查了多次,就是没有找到问题的根源.唯一有故障现象的就是操作系统的故障报错.现在现象是整个SAP系统很慢,根本没有办法操作.郁闷死了.

能给介绍一下怎么连到FAST T600上查看日志吗?
是不是用超级终端连接到FAST T600上的CONSOLE口?如果是这样,默认的用户名和密码是什么?用什么命令看LOG?

十分感谢!

论坛徽章:
0
5 [报告]
发表于 2006-05-30 21:44 |只看该作者
IBM TotalStorage DS4000 Storage Manager软件,可以查看FastT600存储的详细配置和日志信息.


下载地址:

http://www-307.ibm.com/pc/suppor ... ?lndocid=MIGR-60595


      将两根直通双绞线插入每个控制器的RJ45口,连接到一个HUB(或交换机,使用HUB是为了连接两个控制器,不用把线插来插去)上,再用一根双绞线连接HUB和PC机(装了SM的管理软件),就可以使用SM软件管理FastT600了.前体条件,你要知道FastT两个控制器的IP地址,你的SM才能连接的上.

[ 本帖最后由 lxj821028 于 2006-5-30 22:01 编辑 ]

论坛徽章:
0
6 [报告]
发表于 2006-05-31 12:40 |只看该作者

这么简单的问题

你的600的两个控制器只是用于传输信息,无法传输数据,系统没有做通道冗余设计,你做的LUN在600中发生了漂移,建议使用交换机将两个控制器做成冗余的方式!

论坛徽章:
0
7 [报告]
发表于 2006-05-31 22:35 |只看该作者
如果不用交换机,可以作成直连的冗余结构吗?外行话,不知道FAST 600有多少主机接口.

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
8 [报告]
发表于 2006-06-01 09:13 |只看该作者
FASTT600可以有4个接口和主机连接,一般一台主机的2个HBA卡分别接FASTT的A和B控。如果不用交换机,好像做HA会发生一些不可预见的状况。你还是先用SM连下看看吧

论坛徽章:
0
9 [报告]
发表于 2006-06-01 20:29 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
10 [报告]
发表于 2006-06-02 11:57 |只看该作者
原帖由 yycon 于 2006-6-1 20:29 发表
我觉得大家还是不要告诉他!原因很简单,
他根本不熟悉fastt,如果只知道点皮毛就操作正在运行的生产系统,极可能造成数据丢失,如果那样还不如不告诉他的好.哪个责任是他负担不了的,因为最底层的操作没办法恢复.应该 ...


FASTT系列的东西,是做不了负载均衡的.只能是主备切换。
集成商的解释也有问题,明显是LUN在控制器之间切换了,才报的错。频繁切换肯定会影响性能的呀。一个切换正常都要10S以上。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP