免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3881 | 回复: 16
打印 上一主题 下一主题

请高手帮忙看一下,svm镜像盘出错 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-11-26 18:30 |只看该作者 |倒序浏览
3310的盘阵,v480的主机


metastat输出:
d5: Mirror
    Submirror 0: d15
      State: Needs maintenance
    Submirror 1: d25
      State: Needs maintenance
    Pass: 1
    Read option: roundrobin (default)
    Write option: parallel (default)
    Size: 286678272 blocks (136 GB)

d15: Submirror of d5
    State: Needs maintenance
    Invoke: after replacing "Maintenance" components:
                metareplace d5 c3t8d0s2 <new device>
    Hot spare pool: hsp005
    Size: 286678272 blocks (136 GB)
    Stripe 0: (interlace: 32 blocks)
        Device     Start Block  Dbase        State Reloc Hot Spare
        c3t8d0s2          0     No      Last Erred   Yes
        c3t9d0s2      10176     No      Last Erred   Yes c3t12d0s2


d25: Submirror of d5
    State: Needs maintenance
    Invoke: metareplace d5 c3t10d0s2 <new device>
    Hot spare pool: hsp005
    Size: 286678272 blocks (136 GB)
    Stripe 0: (interlace: 32 blocks)
        Device      Start Block  Dbase        State Reloc Hot Spare
        c3t10d0s2          0     No     Maintenance   Yes
        c3t11d0s2      10176     No     Maintenance   Yes


hsp005: 1 hot spare
        Device      Status      Length          Reloc
        c3t12d0s2   In use       143349312 blocks       Yes

Device Relocation Information:
Device    Reloc Device ID
c3t10d0   Yes   id1,sd@SFUJITSU_MAP3735N_SUN72G_00Q0E3W8____
c3t11d0   Yes   id1,sd@SFUJITSU_MAP3735N_SUN72G_00Q0DSPE____
c3t8d0    Yes   id1,sd@SFUJITSU_MAP3735N_SUN72G_00Q0E2F7____
c3t12d0   Yes   id1,sd@SFUJITSU_MAP3735N_SUN72G_00Q0DSPJ____

iostat -E输出如下:
sd23     Soft Errors: 0 Hard Errors: 1 Transport Errors: 0
Vendor: FUJITSU  Product: MAP3735N SUN72G  Revision: 0401 Serial No: 0435Q0E2F7
Size: 73.40GB <73400057856 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0
Illegal Request: 0 Predictive Failure Analysis: 0
sd24     Soft Errors: 0 Hard Errors: 0 Transport Errors: 0
Vendor: FUJITSU  Product: MAP3735N SUN72G  Revision: 0401 Serial No: 0433Q0DE0L
Size: 73.40GB <73400057856 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0
Illegal Request: 0 Predictive Failure Analysis: 0
sd25     Soft Errors: 0 Hard Errors: 1 Transport Errors: 0
Vendor: FUJITSU  Product: MAP3735N SUN72G  Revision: 0401 Serial No: 0435Q0E3W8
Size: 73.40GB <73400057856 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0
Illegal Request: 0 Predictive Failure Analysis: 0
sd26     Soft Errors: 0 Hard Errors: 0 Transport Errors: 0
Vendor: FUJITSU  Product: MAP3735N SUN72G  Revision: 0401 Serial No: 0435Q0DSPE
Size: 73.40GB <73400057856 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0
Illegal Request: 0 Predictive Failure Analysis: 0
sd27     Soft Errors: 0 Hard Errors: 1 Transport Errors: 0
Vendor: FUJITSU  Product: MAP3735N SUN72G  Revision: 0401 Serial No: 0435Q0DSPJ
Size: 73.40GB <73400057856 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0
Illegal Request: 0 Predictive Failure Analysis: 0



现在的情况是热备盘c3t12d0s2已经替换了c3t9d0s2,镜像d25变成maintenance状态了。d5做文件系统用,主机曾宕过几次机,对d5做了fsck后目前还可以mount并使用,目前已对d5上的数据做了备份。
我把主机断电后将9号盘换了新盘,启机后没什么反映。
盘阵前面板状态灯显示都是正常的,这点很奇怪。文件系统有读写时可以断定数据从8号和12号盘读写。请高手帮忙判断下目前故障盘是哪些,按什么方法做比较好

[ 本帖最后由 woai210 于 2009-11-26 19:17 编辑 ]

论坛徽章:
0
2 [报告]
发表于 2009-11-26 18:56 |只看该作者
先备份,然后把d25从d5上detach掉,删除,重建d25,重新attch到d5,完事后,更换9号盘,把热备盘替下来。

[ 本帖最后由 easybegin 于 2009-11-26 18:58 编辑 ]

论坛徽章:
0
3 [报告]
发表于 2009-11-26 19:00 |只看该作者
你既然已经换了9号盘,就先把热背叛替下来吧。

论坛徽章:
0
4 [报告]
发表于 2009-11-26 19:23 |只看该作者
能判定是哪些盘有问题么?我觉得似乎所有盘都有问题。。。
另外要把使用中的热备盘替下来,用什么命令啊,是metareplace -e d5 c3t9d0s2启用9号盘吗?
还是用metahs -e /dev/dsk/c3t12d0s2启用热备?

论坛徽章:
0
5 [报告]
发表于 2009-11-26 21:46 |只看该作者
你的信息太少了,不一定是盘坏了,可能只是mirror同步有问题了而已。
Maintenance 标志的是先坏的盘,需要首先恢复。
Last Erred标志的是后坏的盘,一般不是物理硬盘损坏,需要在 Maintenance 盘恢复后再做修复 。

论坛徽章:
0
6 [报告]
发表于 2009-11-26 23:31 |只看该作者
单从hard error来看,不足以需要换盘啊。

论坛徽章:
0
7 [报告]
发表于 2009-11-27 11:49 |只看该作者
昨晚换了10号盘,执行metareplace -e命令后10号盘开始同步,metastat看到10号盘显示resyncing,一段时间后d25的state显示need maintenance,Invoke显示需要更换11号盘
大约两小时后,metastat看到10号盘还在同步中,看盘阵上的硬盘灯8号和10灯都不再闪烁,看/var/adm/messages有以下信息
Nov 26 20:01:19 ns scsi: [ID 107833 kern.warning] WARNING: /pci@8,700000/pci@3/s
csi@5 (qus1):
Nov 26 20:01:19 ns      Target synch. rate reduced. tgt 8 lun 0
Nov 26 20:01:19 ns scsi: [ID 107833 kern.warning] WARNING: /pci@8,700000/pci@3/s
csi@5 (qus1):
Nov 26 20:01:19 ns      Parity Error
Nov 26 20:01:19 ns md_stripe: [ID 641072 kern.warning] WARNING: md: d15: read er
ror on /dev/dsk/c3t8d0s2
Nov 26 20:01:19 ns md_mirror: [ID 842313 kern.info] NOTICE: md: d15: B_FAILFAST
I/O retry

是否说明8号盘已经报错,无法同步了?

73G的盘2小时了还没同步完,实在等不及了,我把机器关了,把11号盘换上,启机后10号盘又开始同步,等到今天中午,看metastat的状态10号盘还在同步,我用metareplace -e d5 c3t11d0s2命令后,11号盘开始同步,现在metastat看到10号和11号盘都是resyncing状态。昨晚重启机器换了11号盘之后,直接用命令metareplace -e d5 c3t11d0s2让11号盘开始同步是无法执行的,报错显示同时只能有一块盘做resyncing

今天看iostat -E,8号盘sd23的hard error已经有25个错误了,是否说明8号和10号盘已经无法同步?请高手帮忙

论坛徽章:
0
8 [报告]
发表于 2009-11-27 12:08 |只看该作者

回复 #6 zhmzhouming 的帖子

重启以后,hard errors会清零的

论坛徽章:
0
9 [报告]
发表于 2009-11-27 12:08 |只看该作者
给你说了你的信息太少了,你得分清楚你的raid结构。当前的情形看,既然正在同步,就等他结束(完成或者报错都是结束)。然后再看吧

论坛徽章:
0
10 [报告]
发表于 2009-11-27 12:09 |只看该作者
你的这种情况,拆了重做是最方便的
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP