Chinaunix

标题: 请高手帮忙看一下,svm镜像盘出错 [打印本页]

作者: woai210    时间: 2009-11-26 18:30
标题: 请高手帮忙看一下,svm镜像盘出错
3310的盘阵,v480的主机\r\n\r\n\r\nmetastat输出:\r\nd5: Mirror\r\n    Submirror 0: d15\r\n      State: Needs maintenance\r\n    Submirror 1: d25\r\n      State: Needs maintenance\r\n    Pass: 1\r\n    Read option: roundrobin (default)\r\n    Write option: parallel (default)\r\n    Size: 286678272 blocks (136 GB)\r\n\r\nd15: Submirror of d5\r\n    State: Needs maintenance\r\n    Invoke: after replacing \"Maintenance\" components:\r\n                metareplace d5 c3t8d0s2 <new device>\r\n    Hot spare pool: hsp005\r\n    Size: 286678272 blocks (136 GB)\r\n    Stripe 0: (interlace: 32 blocks)\r\n        Device     Start Block  Dbase        State Reloc Hot Spare\r\n        c3t8d0s2          0     No      Last Erred   Yes\r\n        c3t9d0s2      10176     No      Last Erred   Yes c3t12d0s2\r\n\r\n\r\nd25: Submirror of d5\r\n    State: Needs maintenance\r\n    Invoke: metareplace d5 c3t10d0s2 <new device>\r\n    Hot spare pool: hsp005\r\n    Size: 286678272 blocks (136 GB)\r\n    Stripe 0: (interlace: 32 blocks)\r\n        Device      Start Block  Dbase        State Reloc Hot Spare\r\n        c3t10d0s2          0     No     Maintenance   Yes\r\n        c3t11d0s2      10176     No     Maintenance   Yes\r\n\r\n\r\nhsp005: 1 hot spare\r\n        Device      Status      Length          Reloc\r\n        c3t12d0s2   In use       143349312 blocks       Yes\r\n\r\nDevice Relocation Information:\r\nDevice    Reloc Device ID\r\nc3t10d0   Yes   id1,sd@SFUJITSU_MAP3735N_SUN72G_00Q0E3W8____\r\nc3t11d0   Yes   id1,sd@SFUJITSU_MAP3735N_SUN72G_00Q0DSPE____\r\nc3t8d0    Yes   id1,sd@SFUJITSU_MAP3735N_SUN72G_00Q0E2F7____\r\nc3t12d0   Yes   id1,sd@SFUJITSU_MAP3735N_SUN72G_00Q0DSPJ____\r\n\r\niostat -E输出如下:\r\nsd23     Soft Errors: 0 Hard Errors: 1 Transport Errors: 0\r\nVendor: FUJITSU  Product: MAP3735N SUN72G  Revision: 0401 Serial No: 0435Q0E2F7\r\nSize: 73.40GB <73400057856 bytes>\r\nMedia Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0\r\nIllegal Request: 0 Predictive Failure Analysis: 0\r\nsd24     Soft Errors: 0 Hard Errors: 0 Transport Errors: 0\r\nVendor: FUJITSU  Product: MAP3735N SUN72G  Revision: 0401 Serial No: 0433Q0DE0L\r\nSize: 73.40GB <73400057856 bytes>\r\nMedia Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0\r\nIllegal Request: 0 Predictive Failure Analysis: 0\r\nsd25     Soft Errors: 0 Hard Errors: 1 Transport Errors: 0\r\nVendor: FUJITSU  Product: MAP3735N SUN72G  Revision: 0401 Serial No: 0435Q0E3W8\r\nSize: 73.40GB <73400057856 bytes>\r\nMedia Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0\r\nIllegal Request: 0 Predictive Failure Analysis: 0\r\nsd26     Soft Errors: 0 Hard Errors: 0 Transport Errors: 0\r\nVendor: FUJITSU  Product: MAP3735N SUN72G  Revision: 0401 Serial No: 0435Q0DSPE\r\nSize: 73.40GB <73400057856 bytes>\r\nMedia Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0\r\nIllegal Request: 0 Predictive Failure Analysis: 0\r\nsd27     Soft Errors: 0 Hard Errors: 1 Transport Errors: 0\r\nVendor: FUJITSU  Product: MAP3735N SUN72G  Revision: 0401 Serial No: 0435Q0DSPJ\r\nSize: 73.40GB <73400057856 bytes>\r\nMedia Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0\r\nIllegal Request: 0 Predictive Failure Analysis: 0\r\n\r\n\r\n\r\n现在的情况是热备盘c3t12d0s2已经替换了c3t9d0s2,镜像d25变成maintenance状态了。d5做文件系统用,主机曾宕过几次机,对d5做了fsck后目前还可以mount并使用,目前已对d5上的数据做了备份。\r\n我把主机断电后将9号盘换了新盘,启机后没什么反映。\r\n盘阵前面板状态灯显示都是正常的,这点很奇怪。文件系统有读写时可以断定数据从8号和12号盘读写。请高手帮忙判断下目前故障盘是哪些,按什么方法做比较好\n\n[ 本帖最后由 woai210 于 2009-11-26 19:17 编辑 ]
作者: easybegin    时间: 2009-11-26 18:56
先备份,然后把d25从d5上detach掉,删除,重建d25,重新attch到d5,完事后,更换9号盘,把热备盘替下来。\n\n[ 本帖最后由 easybegin 于 2009-11-26 18:58 编辑 ]
作者: easybegin    时间: 2009-11-26 19:00
你既然已经换了9号盘,就先把热背叛替下来吧。
作者: woai210    时间: 2009-11-26 19:23
能判定是哪些盘有问题么?我觉得似乎所有盘都有问题。。。\r\n另外要把使用中的热备盘替下来,用什么命令啊,是metareplace -e d5 c3t9d0s2启用9号盘吗?\r\n还是用metahs -e /dev/dsk/c3t12d0s2启用热备?
作者: easybegin    时间: 2009-11-26 21:46
你的信息太少了,不一定是盘坏了,可能只是mirror同步有问题了而已。\r\nMaintenance 标志的是先坏的盘,需要首先恢复。\r\nLast Erred标志的是后坏的盘,一般不是物理硬盘损坏,需要在 Maintenance 盘恢复后再做修复 。
作者: zhmzhouming    时间: 2009-11-26 23:31
单从hard error来看,不足以需要换盘啊。
作者: woai210    时间: 2009-11-27 11:49
昨晚换了10号盘,执行metareplace -e命令后10号盘开始同步,metastat看到10号盘显示resyncing,一段时间后d25的state显示need maintenance,Invoke显示需要更换11号盘\r\n大约两小时后,metastat看到10号盘还在同步中,看盘阵上的硬盘灯8号和10灯都不再闪烁,看/var/adm/messages有以下信息\r\nNov 26 20:01:19 ns scsi: [ID 107833 kern.warning] WARNING: /pci@8,700000/pci@3/s\r\ncsi@5 (qus1):\r\nNov 26 20:01:19 ns      Target synch. rate reduced. tgt 8 lun 0\r\nNov 26 20:01:19 ns scsi: [ID 107833 kern.warning] WARNING: /pci@8,700000/pci@3/s\r\ncsi@5 (qus1):\r\nNov 26 20:01:19 ns      Parity Error\r\nNov 26 20:01:19 ns md_stripe: [ID 641072 kern.warning] WARNING: md: d15: read er\r\nror on /dev/dsk/c3t8d0s2\r\nNov 26 20:01:19 ns md_mirror: [ID 842313 kern.info] NOTICE: md: d15: B_FAILFAST\r\nI/O retry\r\n\r\n是否说明8号盘已经报错,无法同步了?\r\n\r\n73G的盘2小时了还没同步完,实在等不及了,我把机器关了,把11号盘换上,启机后10号盘又开始同步,等到今天中午,看metastat的状态10号盘还在同步,我用metareplace -e d5 c3t11d0s2命令后,11号盘开始同步,现在metastat看到10号和11号盘都是resyncing状态。昨晚重启机器换了11号盘之后,直接用命令metareplace -e d5 c3t11d0s2让11号盘开始同步是无法执行的,报错显示同时只能有一块盘做resyncing\r\n\r\n今天看iostat -E,8号盘sd23的hard error已经有25个错误了,是否说明8号和10号盘已经无法同步?请高手帮忙
作者: killer911    时间: 2009-11-27 12:08
标题: 回复 #6 zhmzhouming 的帖子
重启以后,hard errors会清零的
作者: easybegin    时间: 2009-11-27 12:08
给你说了你的信息太少了,你得分清楚你的raid结构。当前的情形看,既然正在同步,就等他结束(完成或者报错都是结束)。然后再看吧
作者: easybegin    时间: 2009-11-27 12:09
你的这种情况,拆了重做是最方便的
作者: woai210    时间: 2009-11-27 15:42
标题: 回复 #14 easybegin 的帖子
非常感谢,数据在我对盘阵操作之前就已经备份了\r\n\r\n我没有拆分镜像,现在整个d25子镜像的盘都换了,从metastat可以看到d25下的10号和11号盘都是resyncing状态,d5的状态为resyncing,同步完成比例在缓慢增长。。。先等时间吧\r\n\r\n目前iostat -E看到有两块盘的hard error数字在增加,有一块已经700多了,担心ing。。。




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2