免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4200 | 回复: 10
打印 上一主题 下一主题

请高手帮忙看一下,svm镜像盘出错 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-11-26 18:30 |只看该作者 |倒序浏览
3310的盘阵,v480的主机\r\n\r\n\r\nmetastat输出:\r\nd5: Mirror\r\n    Submirror 0: d15\r\n      State: Needs maintenance\r\n    Submirror 1: d25\r\n      State: Needs maintenance\r\n    Pass: 1\r\n    Read option: roundrobin (default)\r\n    Write option: parallel (default)\r\n    Size: 286678272 blocks (136 GB)\r\n\r\nd15: Submirror of d5\r\n    State: Needs maintenance\r\n    Invoke: after replacing \"Maintenance\" components:\r\n                metareplace d5 c3t8d0s2 <new device>\r\n    Hot spare pool: hsp005\r\n    Size: 286678272 blocks (136 GB)\r\n    Stripe 0: (interlace: 32 blocks)\r\n        Device     Start Block  Dbase        State Reloc Hot Spare\r\n        c3t8d0s2          0     No      Last Erred   Yes\r\n        c3t9d0s2      10176     No      Last Erred   Yes c3t12d0s2\r\n\r\n\r\nd25: Submirror of d5\r\n    State: Needs maintenance\r\n    Invoke: metareplace d5 c3t10d0s2 <new device>\r\n    Hot spare pool: hsp005\r\n    Size: 286678272 blocks (136 GB)\r\n    Stripe 0: (interlace: 32 blocks)\r\n        Device      Start Block  Dbase        State Reloc Hot Spare\r\n        c3t10d0s2          0     No     Maintenance   Yes\r\n        c3t11d0s2      10176     No     Maintenance   Yes\r\n\r\n\r\nhsp005: 1 hot spare\r\n        Device      Status      Length          Reloc\r\n        c3t12d0s2   In use       143349312 blocks       Yes\r\n\r\nDevice Relocation Information:\r\nDevice    Reloc Device ID\r\nc3t10d0   Yes   id1,sd@SFUJITSU_MAP3735N_SUN72G_00Q0E3W8____\r\nc3t11d0   Yes   id1,sd@SFUJITSU_MAP3735N_SUN72G_00Q0DSPE____\r\nc3t8d0    Yes   id1,sd@SFUJITSU_MAP3735N_SUN72G_00Q0E2F7____\r\nc3t12d0   Yes   id1,sd@SFUJITSU_MAP3735N_SUN72G_00Q0DSPJ____\r\n\r\niostat -E输出如下:\r\nsd23     Soft Errors: 0 Hard Errors: 1 Transport Errors: 0\r\nVendor: FUJITSU  Product: MAP3735N SUN72G  Revision: 0401 Serial No: 0435Q0E2F7\r\nSize: 73.40GB <73400057856 bytes>\r\nMedia Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0\r\nIllegal Request: 0 Predictive Failure Analysis: 0\r\nsd24     Soft Errors: 0 Hard Errors: 0 Transport Errors: 0\r\nVendor: FUJITSU  Product: MAP3735N SUN72G  Revision: 0401 Serial No: 0433Q0DE0L\r\nSize: 73.40GB <73400057856 bytes>\r\nMedia Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0\r\nIllegal Request: 0 Predictive Failure Analysis: 0\r\nsd25     Soft Errors: 0 Hard Errors: 1 Transport Errors: 0\r\nVendor: FUJITSU  Product: MAP3735N SUN72G  Revision: 0401 Serial No: 0435Q0E3W8\r\nSize: 73.40GB <73400057856 bytes>\r\nMedia Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0\r\nIllegal Request: 0 Predictive Failure Analysis: 0\r\nsd26     Soft Errors: 0 Hard Errors: 0 Transport Errors: 0\r\nVendor: FUJITSU  Product: MAP3735N SUN72G  Revision: 0401 Serial No: 0435Q0DSPE\r\nSize: 73.40GB <73400057856 bytes>\r\nMedia Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0\r\nIllegal Request: 0 Predictive Failure Analysis: 0\r\nsd27     Soft Errors: 0 Hard Errors: 1 Transport Errors: 0\r\nVendor: FUJITSU  Product: MAP3735N SUN72G  Revision: 0401 Serial No: 0435Q0DSPJ\r\nSize: 73.40GB <73400057856 bytes>\r\nMedia Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0\r\nIllegal Request: 0 Predictive Failure Analysis: 0\r\n\r\n\r\n\r\n现在的情况是热备盘c3t12d0s2已经替换了c3t9d0s2,镜像d25变成maintenance状态了。d5做文件系统用,主机曾宕过几次机,对d5做了fsck后目前还可以mount并使用,目前已对d5上的数据做了备份。\r\n我把主机断电后将9号盘换了新盘,启机后没什么反映。\r\n盘阵前面板状态灯显示都是正常的,这点很奇怪。文件系统有读写时可以断定数据从8号和12号盘读写。请高手帮忙判断下目前故障盘是哪些,按什么方法做比较好\n\n[ 本帖最后由 woai210 于 2009-11-26 19:17 编辑 ]

论坛徽章:
0
2 [报告]
发表于 2009-11-26 18:56 |只看该作者
先备份,然后把d25从d5上detach掉,删除,重建d25,重新attch到d5,完事后,更换9号盘,把热备盘替下来。\n\n[ 本帖最后由 easybegin 于 2009-11-26 18:58 编辑 ]

论坛徽章:
0
3 [报告]
发表于 2009-11-26 19:00 |只看该作者
你既然已经换了9号盘,就先把热背叛替下来吧。

论坛徽章:
0
4 [报告]
发表于 2009-11-26 19:23 |只看该作者
能判定是哪些盘有问题么?我觉得似乎所有盘都有问题。。。\r\n另外要把使用中的热备盘替下来,用什么命令啊,是metareplace -e d5 c3t9d0s2启用9号盘吗?\r\n还是用metahs -e /dev/dsk/c3t12d0s2启用热备?

论坛徽章:
0
5 [报告]
发表于 2009-11-26 21:46 |只看该作者
你的信息太少了,不一定是盘坏了,可能只是mirror同步有问题了而已。\r\nMaintenance 标志的是先坏的盘,需要首先恢复。\r\nLast Erred标志的是后坏的盘,一般不是物理硬盘损坏,需要在 Maintenance 盘恢复后再做修复 。

论坛徽章:
0
6 [报告]
发表于 2009-11-26 23:31 |只看该作者
单从hard error来看,不足以需要换盘啊。

论坛徽章:
0
7 [报告]
发表于 2009-11-27 11:49 |只看该作者
昨晚换了10号盘,执行metareplace -e命令后10号盘开始同步,metastat看到10号盘显示resyncing,一段时间后d25的state显示need maintenance,Invoke显示需要更换11号盘\r\n大约两小时后,metastat看到10号盘还在同步中,看盘阵上的硬盘灯8号和10灯都不再闪烁,看/var/adm/messages有以下信息\r\nNov 26 20:01:19 ns scsi: [ID 107833 kern.warning] WARNING: /pci@8,700000/pci@3/s\r\ncsi@5 (qus1):\r\nNov 26 20:01:19 ns      Target synch. rate reduced. tgt 8 lun 0\r\nNov 26 20:01:19 ns scsi: [ID 107833 kern.warning] WARNING: /pci@8,700000/pci@3/s\r\ncsi@5 (qus1):\r\nNov 26 20:01:19 ns      Parity Error\r\nNov 26 20:01:19 ns md_stripe: [ID 641072 kern.warning] WARNING: md: d15: read er\r\nror on /dev/dsk/c3t8d0s2\r\nNov 26 20:01:19 ns md_mirror: [ID 842313 kern.info] NOTICE: md: d15: B_FAILFAST\r\nI/O retry\r\n\r\n是否说明8号盘已经报错,无法同步了?\r\n\r\n73G的盘2小时了还没同步完,实在等不及了,我把机器关了,把11号盘换上,启机后10号盘又开始同步,等到今天中午,看metastat的状态10号盘还在同步,我用metareplace -e d5 c3t11d0s2命令后,11号盘开始同步,现在metastat看到10号和11号盘都是resyncing状态。昨晚重启机器换了11号盘之后,直接用命令metareplace -e d5 c3t11d0s2让11号盘开始同步是无法执行的,报错显示同时只能有一块盘做resyncing\r\n\r\n今天看iostat -E,8号盘sd23的hard error已经有25个错误了,是否说明8号和10号盘已经无法同步?请高手帮忙

论坛徽章:
0
8 [报告]
发表于 2009-11-27 12:08 |只看该作者

回复 #6 zhmzhouming 的帖子

重启以后,hard errors会清零的

论坛徽章:
0
9 [报告]
发表于 2009-11-27 12:08 |只看该作者
给你说了你的信息太少了,你得分清楚你的raid结构。当前的情形看,既然正在同步,就等他结束(完成或者报错都是结束)。然后再看吧

论坛徽章:
0
10 [报告]
发表于 2009-11-27 12:09 |只看该作者
你的这种情况,拆了重做是最方便的
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP