Chinaunix

标题: errpt报DISK OPERATION ERROR，但使用正常，需要怎样处理？ [打印本页]

作者: sygdwg 时间: 2006-07-11 09:39
标题: errpt报DISK OPERATION ERROR，但使用正常，需要怎样处理？
AIX5。2操作系统，POWERPATH4。2，CX700存储，最近在对LUN从一个storage group移动到另一个storage group后，在系统中做importvg等对磁盘的系统级操作时，errpt中会报DISK OPERATION ERROR的错误。有时候有几行错误，有时候有几十行错误，但是应用的运行一点问题没有，请问这是否为严重问题，该如何操作，可以使系统中不再报错？\r\nerrpt\r\nDCB47997 0710093106 T H hdisk21 DISK OPERATION ERROR\r\nDCB47997 0707155506 T H hdisk55 DISK OPERATION ERROR\r\n\r\nerrpt -a\r\n---------------------------------------------------------------------------\r\nLABEL: SC_DISK_ERR4\r\nIDENTIFIER: DCB47997\r\n\r\nDate/Time: Mon Jul 10 09:31:12 BEIS\r\nSequence Number: 523\r\nMachine Id: \r\nNode Id: \r\nClass: H\r\nType: TEMP\r\nResource Name: hdisk21 \r\nResource Class: disk\r\nResource Type: CLAR_FC_raid10\r\nLocation: U1.5-P1-I5/Q1-W5006016110602717-L11000000000000\r\nVPD: \r\n Manufacturer................DGC \r\n Machine Type and Model......RAID 10 \r\n ROS Level and ID............0207\r\n Serial Number...............\r\n Device Specific.(SI)........CX700\r\n Device Specific.(PQ)........00\r\n Device Specific.(VS)........32000045D9CL\r\n Device Specific.(UI)........60060160F95411000D1F64532E48D911\r\n Device Specific.(FL)........0032\r\n Device Specific.(Z0)........10\r\n Device Specific.(Z1)........10\r\n\r\nDescription\r\nDISK OPERATION ERROR\r\n\r\nProbable Causes\r\nMEDIA\r\nDASD DEVICE\r\n\r\nUser Causes\r\nMEDIA DEFECTIVE\r\n\r\n Recommended Actions\r\n FOR REMOVABLE MEDIA, CHANGE MEDIA AND RETRY\r\n PERFORM PROBLEM DETERMINATION PROCEDURES\r\n\r\nFailure Causes\r\nMEDIA\r\nDISK DRIVE\r\n\r\n Recommended Actions\r\n FOR REMOVABLE MEDIA, CHANGE MEDIA AND RETRY\r\n PERFORM PROBLEM DETERMINATION PROCEDURES\r\n\r\nDetail Data\r\nPATH ID\r\n 0\r\nSENSE DATA\r\n0A00 2A00 01EB E020 0000 1004 0000 0000 0000 0000 0000 0000 0200 0300 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 0000 0001 D9AE 0008 A080 0000 0006 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0035 001D \r\n---------------------------------------------------------------------------\r\nLABEL: SC_DISK_ERR4\r\nIDENTIFIER: DCB47997\r\n\r\nDate/Time: Fri Jul 7 15:55:07 BEIS\r\nSequence Number: 522\r\nMachine Id: \r\nNode Id: \r\nClass: H\r\nType: TEMP\r\nResource Name: hdisk55 \r\nResource Class: disk\r\nResource Type: CLAR_FC_raid10\r\nLocation: U1.5-P2-I8/Q1-W5006016010602717-LF000000000000\r\nVPD: \r\n Manufacturer................DGC \r\n Machine Type and Model......RAID 10 \r\n ROS Level and ID............0207\r\n Serial Number...............\r\n Device Specific.(SI)........CX700\r\n Device Specific.(PQ)........00\r\n Device Specific.(VS)........30000045C8CL\r\n Device Specific.(UI)........60060160F95411000B1F64532E48D911\r\n Device Specific.(FL)........0030\r\n Device Specific.(Z0)........10\r\n Device Specific.(Z1)........10\r\n\r\nDescription\r\nDISK OPERATION ERROR\r\n\r\nProbable Causes\r\nMEDIA\r\nDASD DEVICE\r\n\r\nUser Causes\r\nMEDIA DEFECTIVE\r\n\r\n Recommended Actions\r\n FOR REMOVABLE MEDIA, CHANGE MEDIA AND RETRY\r\n PERFORM PROBLEM DETERMINATION PROCEDURES\r\n\r\nFailure Causes\r\nMEDIA\r\nDISK DRIVE\r\n\r\n Recommended Actions\r\n FOR REMOVABLE MEDIA, CHANGE MEDIA AND RETRY\r\n PERFORM PROBLEM DETERMINATION PROCEDURES\r\n\r\nDetail Data\r\nPATH ID\r\n 0\r\nSENSE DATA\r\n0A00 2A00 00B8 74E8 0000 1004 0000 0000 0000 0000 0000 0000 0200 0300 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 0000 0000 6471 0006 F9C0 0000 0006 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0035 001D

作者: zlg88 时间: 2006-07-11 10:12
去问EMC的工程师，你得到的答复肯定是“不用管它，这是误报”

作者: mygod1997 时间: 2006-07-11 22:49
是用raid做的吗？最好连根线进去看看

作者: yddll 时间: 2006-07-11 23:11
我们这儿从开始安装到现在,一直就有这个问题,EMC的人说是正常,不用管它.\r\n\r\n我一直比较担心的是,如果有一天我们习惯这些报错了,真有一天真的有问题了,却以为是正常的,那就麻烦了.......

作者: hgh25emus 时间: 2006-07-12 08:51
我也遇到同样的问题，开始emc的工程师来，做了下修改，后来好了，最近又有这种报错，但对应用是不影响。\r\n的。其实你会发现不一定importvg 会引发这种出错，我重启ha或数据库都会出这种错的。\r\n我有个他们当初的处理文档给你不知道你敢不敢用？

作者: hgh25emus 时间: 2006-07-12 08:56
EMC Knowledgebase\r\n \r\n\r\n \"How to remove LUNZ devices\"\r\n\r\n \r\n\r\n \r\n \r\n \r\n\r\n \r\n\r\nKnowledgebase Solution \r\n \r\n Question: \r\nHow to remove LUNZ devices\r\nEnvironment: \r\nProduct: CLARiiON\r\nEnvironment: \r\nEMC SW: Navisphere CLI\r\nEnvironment: \r\nEMC SW: Navisphere\r\nEnvironment: \r\nOS: IBM AIX\r\nProblem: \r\nWhy do LUNZ devices appear on an AIX host even though storage is attached?\r\nProblem: \r\nLUNZ devices appear after running cfgmgr, but were not there previously.\r\nChange: \r\nThe ALU (Array LUN Unit) associated with HLU (Host LUN Unit) 0 was removed from the Storage Group.\r\nChange: \r\nCLARiiON LUNs attached to host.\r\nFix: \r\nFix 1:\r\nDisable arraycommpath using navicli:\r\n1. lsdev -Cc disk | grep LUNZ to get a list of the hdisk devices that are LUNZ devices. \r\n2. rmdev -dl hdiskn for every LUNZ device, where n is the hdisk number of the LUNZ \r\n3. navicli -h <SP_IP_address> storagegroup -sethost -host <hostname> -arraycommpath 0 \r\n4. Run cfgmgr on the host. \r\n5. Run INQ to verify LUNZ devices are now gone. \r\nFix 2:\r\nCreate a new LUN:\r\n1. Bind a small LUN. \r\n2. Add the LUN to the Storage Group in question. \r\n3. Before applying the configuration scroll the \"Selected LUNs\" field to the right. \r\n4. Change the \"Host ID\" field to 0 by clicking the blank space and choosing from the drop down menu. \r\n5. Run cfgmgr on the host. \r\n6. Run INQ to verify LUNZ devices are now gone.

作者: hgh25emus 时间: 2006-07-12 08:58
这个问题最后的处理结果，希望能告知大家。

作者: hgh25emus 时间: 2006-07-12 09:02
Problem: \r\nWhy do LUNZ devices appear on an AIX host even though storage is attached?\r\nProblem: \r\nLUNZ devices appear after running cfgmgr, but were not there previously.\r\nChange: \r\nThe ALU (Array LUN Unit) associated with HLU (Host LUN Unit) 0 was removed from the Storage Group.\r\nChange: \r\nCLARiiON LUNs attached to host.\r\n这个就是问题产生的原因，所以要消除LUNZ devices

作者: 星海夜航 时间: 2006-07-12 09:04
正常现象，但host中出现lunz设备本身就说明有问题

作者: hgh25emus 时间: 2006-07-12 09:04
我这边用fix 1 这种方法是不好用的，用的是第二种方法，bind一个小lun。

作者: sygdwg 时间: 2006-07-12 16:40
是有几块LUNZ的硬盘,EMC说确认没有使用就可以删除了,我删了没出什么问题.不过navicli -h <SP_IP_address> storagegroup -sethost -host <hostname> -arraycommpath 0这个命令EMC说如果是生产机请不要执行,我没执行.\r\nEMC说\r\nSENSE DATA\r\n0A00 2A00 01EB E020 0000 1004 0000 0000 0000 0000 0000 0000 0200 0300 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0000 0000 0001 D9AE 0008 A080 0000 0006 0000 0000 0000 0000 0000 0000 0000 \r\n0000 0035 001D \r\n这个错误说明的是:曾经系统中有这个硬盘,但是现在访问不到了.\r\n\r\n正在和EMC处理中,如果能解决,一定告之大家,谢谢!\n\n[ 本帖最后由 sygdwg 于 2006-7-12 17:03 编辑 ]

作者: jianan 时间: 2006-07-13 21:20
EMC这个没问题.它本身也是TEMP性错误!确实是没事的!不用太过与担心!不过,我建议你通过NAVSPHERE看一整个RAID的IO使用情况!

作者: xuwanbest 时间: 2006-07-30 11:14
我这边也经常有这样的大量的报错,基本上都是后端连接了CX的存储会出现,也集中在那几台服务器上.\r\n每次出现这样的问题,我都是用powermt display dev=all 查看下那些报错的路径是否是alive的,看看SP有没有发生切换,如果正常我就不管它了.\r\n但我们并没有把其真正的原因找出来,问其他人也是说可能在那个时间段数据量比较大导致,IBM那边抓SNAP也看不出来什么,EMC也说没事,各位大大虾有没有知道的呢?发表下可能的见解啊!

作者: mophe 时间: 2006-08-01 12:24
HACMP+EMC的存储，是要跑个ECM的脚本的，是在HA脚本里面加上一些EMC磁盘的描述。set_scsi_id。\r\n不知道这个东西当初EMC帮你做了没有？\r\n\r\n\"New \" set_scsi_id \" script is now required with CLARiiON LUNs in an HACMP / PP environment.\" \r\n \r\n \r\nID: emc97234

作者: wuchengeng 时间: 2006-08-01 20:41
试下修改一下pv的timeout属性：用chdev 命令将其值改为>30，默认值是30,我改成1000。\r\n\r\n详细说明见我的博客

作者: xuwanbest 时间: 2006-08-01 21:48
set_scsi_id 这个参数已经设置过了,不一定是HACMP会有这样的问题,单台主机也会有.惟一的共性是后面连的是CX700的存储!\r\nwuchengeng:我也想过修改这个参数,但这样就怕对I/O有影响呢?而且对于已经在用的路径不允许chdev rw_timeout这个属性

作者: jackpenggg 时间: 2006-08-02 10:44
以前也碰到过\r\n连EMC 500的存储老是报磁盘操作错误\r\n升级HBA卡的微码解决问题

作者: bluely 时间: 2006-08-02 15:22
在CX500也曾经碰到过，最后升级HBA卡微码解决过.

作者: sygdwg 时间: 2006-08-03 08:34
EMC最终的解释是：CX700没有硬件问题，在使用中未报此错误就行，在用cfgmgr或powermt config等命令时出问题属于正常的范畴。不太令人满意！\n\n[ 本帖最后由 sygdwg 于 2006-8-3 08:35 编辑 ]

作者: 星海夜航 时间: 2006-08-03 09:38
我的5716微码是最新的\r\nDevice Specific.(Z9)........TS1.90X13\r\n但是errpt也会报很多这个错误，应该是没问题的

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)