免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 9085 | 回复: 11
打印 上一主题 下一主题

AIX中系统报错,目前IO较大,请大家帮忙诊断 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2006-05-29 21:51 |只看该作者 |倒序浏览
各位好!\r\n\r\n2台P550机器.共同连接一台TAST T600磁盘阵列.每台主机配置了2块HBA卡,但是各有一块HBA卡连接到TAST T600上.机器4月20日安装完成,5月13日左右开始,每分钟有3-4次左右报错:\r\n\r\n#root:/>errpt | more\r\nIDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION\r\nC86ACB7E   0529213706 I H hdisk3         ARRAY CONFIGURATION CHANGED\r\n0148FAED   0529213606 I H dac0           SINGLE CONTROLLER RESTARTED\r\nC86ACB7E   0529213606 I H hdisk3         ARRAY CONFIGURATION CHANGED\r\n0148FAED   0529213606 I H dac0           SINGLE CONTROLLER RESTARTED\r\nC86ACB7E   0529213606 I H hdisk3         ARRAY CONFIGURATION CHANGED\r\n0148FAED   0529213506 I H dac0           SINGLE CONTROLLER RESTARTED\r\nC86ACB7E   0529213506 I H hdisk3         ARRAY CONFIGURATION CHANGED\r\n0148FAED   0529213406 I H dac0           SINGLE CONTROLLER RESTARTED\r\nC86ACB7E   0529213406 I H hdisk3         ARRAY CONFIGURATION CHANGED\r\n0148FAED   0529213406 I H dac0           SINGLE CONTROLLER RESTARTED\r\nC86ACB7E   0529213306 I H hdisk3         ARRAY CONFIGURATION CHANGED\r\n0148FAED   0529213306 I H dac0           SINGLE CONTROLLER RESTARTED\r\nC86ACB7E   0529213206 I H hdisk3         ARRAY CONFIGURATION CHANGED\r\n0148FAED   0529213106 I H dac0           SINGLE CONTROLLER RESTARTED\r\nC86ACB7E   0529213106 I H hdisk3         ARRAY CONFIGURATION CHANGED\r\n0148FAED   0529213106 I H dac0           SINGLE CONTROLLER RESTARTED\r\nC86ACB7E   0529213006 I H hdisk3         ARRAY CONFIGURATION CHANGED\r\n0148FAED   0529213006 I H dac0           SINGLE CONTROLLER RESTARTED\r\n\r\n查看详细报错信息:\r\n#root:/>errpt -aj 0148FAED | more\r\n---------------------------------------------------------------------------\r\nLABEL:          FCP_ARRAY_ERR27\r\nIDENTIFIER:     0148FAED\r\n\r\nDate/Time:       Mon May 29 21:38:58 BEIST 2006\r\nSequence Number: 33016\r\nMachine Id:      000A593AD600\r\nNode Id:         sapdev\r\nClass:           H\r\nType:            INFO\r\nResource Name:   dac0            \r\nResource Class:  array\r\nResource Type:   ibm-dac-V4\r\nLocation:        U787B.001.DNW84AD-P1-C2-T1-W200500A0B821040C\r\nVPD:             \r\n        Manufacturer................IBM     \r\n        Machine Type and Model......1722-600        \r\n        Part Number.................12844-00        \r\n        ROS Level and ID............0520\r\n\r\nDescription\r\nSINGLE CONTROLLER RESTARTED\r\n\r\nProbable Causes\r\nA COMMUNICATION OR HARDWARE PROBLEM REPAIRED\r\nLUN MOVED TO A CONTROLLER WITHOUT A PATH\r\n\r\nUser Causes\r\nONE CONTROLLER DECONFIGURED BY USER\r\n\r\n        Recommended Actions\r\n        IF THIS IS A DUAL CONTROLLER, IT IS IN A\r\n        NON-REDUNDANT CONFIGURATION, RECONFIGURE\r\n        THE DAC WHEN POSSIBLE\r\n\r\nFailure Causes\r\nARRAY CONTROLLER\r\nCABLES AND CONNECTIONS\r\n\r\n        Recommended Actions\r\n        NO ACTION NECESSARY\r\n\r\nDetail Data\r\nSENSE DATA\r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0400 00EE 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 2D3C 9000 F705 3207 0000 0000 0000 0003 0000 0000 E400 0000 0000 0003 \r\n0000 0000 \r\n---------------------------------------------------------------------------\r\nLABEL:          FCP_ARRAY_ERR27\r\nIDENTIFIER:     0148FAED\r\n\r\n\r\n\r\n#root:/>errpt -aj C86ACB7E | more\r\n---------------------------------------------------------------------------\r\nLABEL:          FCP_ARRAY_ERR10\r\nIDENTIFIER:     C86ACB7E\r\n\r\nDate/Time:       Mon May 29 21:39:47 BEIST 2006\r\nSequence Number: 33017\r\nMachine Id:      000A593AD600\r\nNode Id:         sapdev\r\nClass:           H\r\nType:            INFO\r\nResource Name:   hdisk3          \r\nResource Class:  disk\r\nResource Type:   array\r\nLocation:        U787B.001.DNW84AD-P1-C2-T1-W200500A0B821040C-L1000000000000\r\n\r\nDescription\r\nARRAY CONFIGURATION CHANGED\r\n\r\nProbable Causes\r\nARRAY CONTROLLER\r\nCABLES AND CONNECTIONS\r\n\r\nFailure Causes\r\nARRAY CONTROLLER\r\nCABLES AND CONNECTIONS\r\n\r\n        Recommended Actions\r\n        NO ACTION NECESSARY\r\n\r\nDetail Data\r\nSENSE DATA\r\n0600 1600 0000 0000 0000 0000 0000 0000 0000 0000 0000 19AA 0102 0000 7000 0500 \r\n0000 0098 0000 0000 9401 0000 0000 0000 0100 0000 0000 0000 0000 0000 0000 0000 \r\n0002 1600 0016 0000 0000 0000 0000 0000 0000 3154 3630 3236 3235 3738 2020 2020 \r\n2020 0612 1600 0001 0000 0600 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0005 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 001B 82F2 3035 3239 3036 2F30 3733 3234 3900 0000 0000 0000 0000 0000 \r\n0000 0000 2E06 B000 F705 3207 0000 0000 0000 0000 0000 0000 E400 FFFF 0000 0003 \r\n0000 0000 \r\n---------------------------------------------------------------------------\r\nLABEL:          FCP_ARRAY_ERR10\r\nIDENTIFIER:     C86ACB7E\r\n\r\n\r\n用iostat 1查看,iowait为26%左右,但是任何一个硬盘都没有读写忙的信息:\r\ntty:      tin         tout    avg-cpu: % user % sys % idle % iowait\r\n          0.0        709.0                0.1   0.2   73.8     26.0\r\n\r\nDisks:        % tm_act     Kbps      tps    Kb_read   Kb_wrtn\r\nhdisk1           0.0       0.0       0.0          0         0\r\nhdisk0           0.0       0.0       0.0          0         0\r\ndac0             0.0       0.0       0.0          0         0\r\ndac0-utm         0.0       0.0       0.0          0         0\r\nhdisk2           0.0       0.0       0.0          0         0\r\nhdisk3           0.0       0.0       0.0          0         0\r\nhdisk4           0.0       0.0       0.0          0         0\r\ncd0              0.0       0.0       0.0          0         0\r\n\r\ntty:      tin         tout    avg-cpu: % user % sys % idle % iowait\r\n          0.0        695.1                0.1   0.1   74.2     25.6\r\n\r\nDisks:        % tm_act     Kbps      tps    Kb_read   Kb_wrtn\r\nhdisk1           0.0       0.0       0.0          0         0\r\nhdisk0           0.0       0.0       0.0          0         0\r\ndac0             0.0       0.0       0.0          0         0\r\ndac0-utm         0.0       0.0       0.0          0         0\r\nhdisk2           0.0       0.0       0.0          0         0\r\nhdisk3           0.0       0.0       0.0          0         0\r\nhdisk4           0.0       0.0       0.0          0         0\r\ncd0              0.0       0.0       0.0          0         0\r\n\r\n查看dac;信息如下\r\n#root:/usr/ucb>fget_config -l dar0\r\ndac0 ACTIVE dacNONE ACTIVE\r\nhdisk2   dac0 \r\nhdisk3   dac0 \r\nhdisk4   dac0 \r\n#root:/usr/ucb>fget_config -l dar0\r\ndac0 ACTIVE dacNONE ACTIVE\r\nhdisk2   dacNONE\r\nhdisk3   dacNONE\r\nhdisk4   dacNONE\r\n#root:/usr/ucb>fget_config -l dar0\r\ndac0 ACTIVE dacNONE ACTIVE\r\nhdisk2   dacNONE\r\nhdisk3   dacNONE\r\nhdisk4   dacNONE\r\ndac0 ACTIVE dacNONE ACTIVE\r\nhdisk2   dac0 \r\nhdisk3   dac0 \r\nhdisk4   dac0 \r\n\r\n\r\n不知道上面的信息是什么意思?由于运行的是公司的ERP系统(SAP+DB2),现在整个系统运行非常缓慢,从系统资源上看,除了iowait到达26%左右,CPU\\内存\\SWAP都没有问题.数据库的BUFFER命中率94%以上,SAP中的内存管理中也没有瓶径,请各位大侠帮助分析一下原因,最好能给出解决办法.\r\n\r\n十分感谢!

论坛徽章:
0
2 [报告]
发表于 2006-05-30 12:49 |只看该作者
C86ACB7E   0529213706 I H hdisk3         ARRAY CONFIGURATION CHANGED\r\n写得很明显了,是FAStT600上的contorl切换了,建议用storage management连到fastt600查看log,再分析是什么原因导致切换的。

论坛徽章:
0
3 [报告]
发表于 2006-05-30 21:27 |只看该作者
谢谢aixcq !\r\n我是SAP的BASIS,对存储了解的不多,硬件供货商那里说这个不是问题,他们给的解释是主机2块HBA卡,只有一块连接到FAST T600上,所以会频繁切换,但是系统性能不会受影响.\r\n但是我在DB2和SAP上,反复查了多次,就是没有找到问题的根源.唯一有故障现象的就是操作系统的故障报错.现在现象是整个SAP系统很慢,根本没有办法操作.郁闷死了.\r\n\r\n能给介绍一下怎么连到FAST T600上查看日志吗?\r\n是不是用超级终端连接到FAST T600上的CONSOLE口?如果是这样,默认的用户名和密码是什么?用什么命令看LOG?\r\n\r\n十分感谢!

论坛徽章:
0
4 [报告]
发表于 2006-05-31 12:40 |只看该作者

这么简单的问题

你的600的两个控制器只是用于传输信息,无法传输数据,系统没有做通道冗余设计,你做的LUN在600中发生了漂移,建议使用交换机将两个控制器做成冗余的方式!

论坛徽章:
0
5 [报告]
发表于 2006-05-31 22:35 |只看该作者
如果不用交换机,可以作成直连的冗余结构吗?外行话,不知道FAST 600有多少主机接口.

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
6 [报告]
发表于 2006-06-01 09:13 |只看该作者
FASTT600可以有4个接口和主机连接,一般一台主机的2个HBA卡分别接FASTT的A和B控。如果不用交换机,好像做HA会发生一些不可预见的状况。你还是先用SM连下看看吧

论坛徽章:
0
7 [报告]
发表于 2006-06-02 11:57 |只看该作者
原帖由 yycon 于 2006-6-1 20:29 发表\r\n我觉得大家还是不要告诉他!原因很简单,\r\n他根本不熟悉fastt,如果只知道点皮毛就操作正在运行的生产系统,极可能造成数据丢失,如果那样还不如不告诉他的好.哪个责任是他负担不了的,因为最底层的操作没办法恢复.应该 ...
\r\n\r\nFASTT系列的东西,是做不了负载均衡的.只能是主备切换。\r\n集成商的解释也有问题,明显是LUN在控制器之间切换了,才报的错。频繁切换肯定会影响性能的呀。一个切换正常都要10S以上。

论坛徽章:
0
8 [报告]
发表于 2006-06-03 13:57 |只看该作者
FAStT600好像不可以做负载均衡,看看有没有驱动程序可以支持DMP功能的,要不久暂时把一根光纤拔掉,免得它碍事,再慢慢看资料想办法了

论坛徽章:
0
9 [报告]
发表于 2006-06-05 18:07 |只看该作者
原帖由 RS9000 于 2006-6-1 09:13 发表\r\nFASTT600可以有4个接口和主机连接,一般一台主机的2个HBA卡分别接FASTT的A和B控。如果不用交换机,好像做HA会发生一些不可预见的状况。你还是先用SM连下看看吧
\r\n\r\n这个也没有那么严重,但是一定要,a控接进,b控接出~

论坛徽章:
0
10 [报告]
发表于 2006-06-06 09:47 |只看该作者
原帖由 wgj 于 2006-6-5 18:07 发表\r\n\r\n\r\n这个也没有那么严重,但是一定要,a控接进,b控接出~
\r\n\r\n楼上说的这个也不一定的,FC的通道,每个通路都有收和发2条连路,A控和B控都一样,就是说IN 和OUT都一样的概念。但是IBM建议同一个控制器中,最好IN和OUT不要同时都使用。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP