免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3779 | 回复: 18
打印 上一主题 下一主题

[求助!] 如何检查/恢复磁盘阵列上出错的volumn? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2004-05-19 12:34 |只看该作者 |倒序浏览
错误现象:
  磁盘阵列上的volumn无法从错误中恢复启动:
  vxvol -f start vol03
vxvm:vxvol: ERROR: Volume vol03 is not safely startable; there is no Raid5 log and some subdisk is missing.  Use -o unsafe to start unsafely.
  vxvm:vxvol: ERROR: Volume vol03 is not started
  估计是磁盘阵列中的两个硬盘出了问题。


磁盘阵列基本情况:
        型号:Sun StorEdge A5000(具体A5000还是其他的,可能写错,因为现在在外地。请问如何可以查看?)
        共10个磁盘(ssd0 ~ ssd9)做RAID(系统记录中显示做的是RAID5)
        1个dg: hjdg
        5个dm: hjdg1 ~ hjdg5。
        每个dm包含5个subdisk,如:hjdg01-01 ~ hjdg01-05
        总共三个volumn : vol01 vol02 vol03。每个vol有1个plex,分别为vol01-01 vol02-01 vol03-01

        现查看系统记录,发现两个磁盘(ssd1和ssd6)出现了问题,(它们应该是共同组成了dm:hjdg-04),
        导致hjdg04上的三个subdisk: hjdg04-01,hjdg04-02,hjdg04-03均出现NODEVICE标志。
        然后所有的volumn都连不上了,使用vxvol -f 和 -o unsafe 都无法启动。
        请问问题可能出现在哪里?
                (1。有否可能是光纤连接线出现问题?
                  2。硬盘损坏可能吗?如果损坏了,能否先撤出来,其他的硬盘用着先?各vol在hjdg04中的数据是否会丢失?)

因为对Volumn管理生疏,望能指教如何检查,如何恢复。万分感谢!

论坛徽章:
0
2 [报告]
发表于 2004-05-19 12:40 |只看该作者

[求助!] 如何检查/恢复磁盘阵列上出错的volumn?

这是当时系统出错时的信息

20:07:21  unix: /sbus@b,0/SUNW,socal@2,0/sf@1,0 (sf5):
20:07:21          Open failure to target 0x3forcing LIP
20:07:21  unix: ID[SUNWssa.socal.link.5010] socal2: port 1: Fibre Channel is OFFLINE
20:07:21  unix: ID[SUNWssa.socal.link.6010] socal2: port 1: Fibre Channel Loop is ONLINE
20:07:22  unix: /sbus@b,0/SUNW,socal@2,0/sf@0,0 (sf4):
20:07:22          Open failure to target 0x3forcing LIP
20:07:22  unix: WARNING: /sbus@b,0/SUNW,socal@2,0/sf@0,0/ssd@w21000020378e562e,0 (ssd1):
20:07:22          SCSI transport failed: reason 'tran_err': retrying command
20:07:22  unix: ID[SUNWssa.socal.link.5010] socal2: port 0: Fibre Channel is OFFLINE
20:07:22  unix: ID[SUNWssa.socal.link.6010] socal2: port 0: Fibre Channel Loop is ONLINE
20:07:31  unix: /sbus@b,0/SUNW,socal@2,0/sf@1,0 (sf5):
20:07:31          INQUIRY to LUN 0x0 to target 0xd retrying
20:07:31  unix: /sbus@b,0/SUNW,socal@2,0/sf@1,0 (sf5):
20:07:31          target 0x3 al_pa 0xe2 LUN 0 offlined
20:07:31  unix: WARNING: /sbus@b,0/SUNW,socal@2,0/sf@1,0/ssd@w22000020378e562e,0 (ssd6):
20:07:31          SCSI transport failed: reason 'reset': retrying command

20:07:32  unix: NOTICE: vxvm:vxdmp: disabled path 118/0x8 belonging to the dmpnode 154/0x18
20:07:32  unix: NOTICE: vxvm:vxdmp: disabled path 118/0x30 belonging to the dmpnode 154/0x18
20:07:32  unix: NOTICE: vxvm:vxdmp: disabled dmpnode 154/0x18
20:07:32  unix: NOTICE: vxdmp: Path failure on 118/52
20:07:32  last message repeated 13 times
20:07:32  unix: NOTICE: vxdmp: Path failure on 118/12
20:07:32  last message repeated 6 times
20:07:33  unix: WARNING: vxvm:vxio: object hjdg04-02 detached from RAID-5 vol02 at column 0 offset 0
20:07:33  unix: WARNING: vxvm:vxio: RAID-5 vol02 entering degraded mode operation
20:07:33  unix: WARNING: vxvm:vxio: object hjdg04-03 detached from RAID-5 vol03 at column 0 offset 0
20:07:33  unix: WARNING: vxvm:vxio: RAID-5 vol03 entering degraded mode operation
20:07:34  unix: WARNING: vxvm:vxio: object hjdg04-01 detached from RAID-5 vol01 at column 0 offset 0
20:07:34  unix: WARNING: vxvm:vxio: RAID-5 vol01 entering degraded mode operation

------------------------------------------------------------------------------------------
vxprint 记录:

dg hjdg         default      default  98000    969619189.1258.s5500

dm hjdg01       c2t16d0s2    sliced   2888     71124291 -
dm hjdg02       c2t19d0s2    sliced   2888     71124291 -
dm hjdg03       c2t22d0s2    sliced   2888     71124291 -
dm hjdg04       -            -        -        -        NODEVICE
dm hjdg05       c2t6d0s2     sliced   2888     71124291 -

v  vol01        raid5        DISABLED ACTIVE   62914560 RAID      -
pl vol01-01     vol01        DISABLED ACTIVE   62922368 RAID      5/32     RW
sd hjdg04-01    vol01-01     hjdg04   0        15730605 0/0       -        NDEV
sd hjdg05-01    vol01-01     hjdg05   0        15730605 1/0       c2t6d0   ENA
sd hjdg01-01    vol01-01     hjdg01   0        15730605 2/0       c2t16d0  ENA
sd hjdg02-01    vol01-01     hjdg02   0        15730605 3/0       c2t19d0  ENA
sd hjdg03-01    vol01-01     hjdg03   0        15730605 4/0       c2t22d0  ENA

v  vol02        raid5        DISABLED ACTIVE   125829120 RAID     -
pl vol02-01     vol02        DISABLED ACTIVE   125833216 RAID     5/32     RW
sd hjdg04-02    vol02-01     hjdg04   15730605 31458321 0/0       -        NDEV
sd hjdg05-02    vol02-01     hjdg05   15730605 31458321 1/0       c2t6d0   ENA
sd hjdg01-02    vol02-01     hjdg01   15730605 31458321 2/0       c2t16d0  ENA
sd hjdg02-02    vol02-01     hjdg02   15730605 31458321 3/0       c2t19d0  ENA
sd hjdg03-02    vol02-01     hjdg03   15730605 31458321 4/0       c2t22d0  ENA

v  vol03        raid5        DISABLED ACTIVE   95739904 RAID      -
pl vol03-01     vol03        DISABLED ACTIVE   95741440 RAID      5/32     RW
sd hjdg04-03    vol03-01     hjdg04   47188926 23935365 0/0       -        NDEV
sd hjdg05-03    vol03-01     hjdg05   47188926 23935365 1/0       c2t6d0   ENA
sd hjdg01-03    vol03-01     hjdg01   47188926 23935365 2/0       c2t16d0  ENA
sd hjdg02-03    vol03-01     hjdg02   47188926 23935365 3/0       c2t19d0  ENA
sd hjdg03-03    vol03-01     hjdg03   47188926 23935365 4/0       c2t22d0  ENA

论坛徽章:
0
3 [报告]
发表于 2004-05-19 12:54 |只看该作者

[求助!] 如何检查/恢复磁盘阵列上出错的volumn?

先用luxadm查看磁盘状态,如luxadm probe什么的,找到有问题的磁盘(如sd1&sd6)。
vxprint -st查看相应的subdisk。
vxprint -Aht查看对应的卷,如坏盘都在一个卷中,有可能就要从备份恢复了。但可以试着换其中一个新盘:
1. unmount 坏卷对应的文件系统,中止读写操作;
2. vxdiskadm选项4;
3. luxadm remove_device -F <raw device>;;
4. 换上新硬盘, luxadm insert_device ...;
5. vxdctl enable;
6. vxdiskadm选项5。

论坛徽章:
0
4 [报告]
发表于 2004-05-19 13:07 |只看该作者

[求助!] 如何检查/恢复磁盘阵列上出错的volumn?

原帖由 "melonm" 发表:
先用luxadm查看磁盘状态,如luxadm probe什么的,找到有问题的磁盘(如sd1&sd6)。
vxprint -st查看相应的subdisk。
vxprint -Aht查看对应的卷,如坏盘都在一个卷中,有可能就要从备份恢复了。但可以试着换其中一个..........

感谢回复!
我用luxadm probe显示(没有提到出错的硬盘?是否还需要其他参数?)
--------------------------------------------------------------
Found Enclosure(s):
SENA               Name:a   Node WWN:50800200000a1da8   
  Logical Path:/dev/es/ses0
  Logical Path:/dev/es/ses1
  Logical Path:/dev/es/ses2
  Logical Path:/dev/es/ses3
--------------------------------------------------------------


vxprint -st显示的有问题的dm中的3个subdisk:
--------------------------------------------------------------
sd hjdg04-01    vol01-01     hjdg04   0        15730605 0/0       -        NDEV
sd hjdg04-02    vol02-01     hjdg04   15730605 31458321 0/0       -        NDEV
sd hjdg04-03    vol03-01     hjdg04   47188926 23935365 0/0       -        NDEV
--------------------------------------------------------------
这3个subdisk分别处在三个volumn中,有可能通过其他subdisk中的数据来恢复吗?如果用vxdiskadm选项4删除这些subdisk,三个volumn中的数据会有缺失吗? 并且,删除之后还能添加回去吗?(因为特殊原因,现在没法去机房换硬盘测试)

论坛徽章:
0
5 [报告]
发表于 2004-05-19 15:52 |只看该作者

[求助!] 如何检查/恢复磁盘阵列上出错的volumn?

哪位还能指点一些我以下这些问题吗?(老板催得很急,万分感谢~)
这3个subdisk分别处在三个volumn中,有可能通过其他subdisk中的数据来恢复吗?如果用vxdiskadm选项4删除这些subdisk,三个volumn中的数据会有缺失吗? 并且,删除之后还能添加回去吗?(因为特殊原因,现在没法去机房换硬盘测试)

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
6 [报告]
发表于 2004-05-19 16:24 |只看该作者

[求助!] 如何检查/恢复磁盘阵列上出错的volumn?

用vxdisk看看究竟是1个还是2个盘损坏。对于RAID-5的卷,可以允许出现1个坏盘。
如果只有1个盘损坏,那么可以使用vxdiskadm功能来进行更换。方法是,先加入新盘,确认系统下可以看到它;
到vxdiskadm中先选4(Remove a disk for replacement)将坏盘标记为准备替换;
选5(Replace a failed or removed disk),将新盘替代刚才标记的坏盘;
确认(list)新盘已被接受后,取走坏盘,重新start卷。
操作一定小心啊,不要随便删除subdisk!

如果有2个以上坏盘,数据无望了。

论坛徽章:
7
荣誉会员
日期:2011-11-23 16:44:17水瓶座
日期:2013-08-28 21:20:16丑牛
日期:2013-10-02 21:01:462015年迎新春徽章
日期:2015-03-04 09:54:45操作系统版块每日发帖之星
日期:2016-06-05 06:20:0015-16赛季CBA联赛之吉林
日期:2016-06-20 08:24:0515-16赛季CBA联赛之四川
日期:2016-08-18 15:02:02
7 [报告]
发表于 2004-05-19 18:32 |只看该作者

[求助!] 如何检查/恢复磁盘阵列上出错的volumn?

你这问题看样子还不算太严重。你尝试一下替换失败盘。并且做一下同步。
vxdiskadm 选5,接着漫漫的按照提示来。
vxtask list看看是否存在同步进程。
如果系统的坏盘换完,系统未做同步,那么你尝试一下手工同步:
vxvol -g hjdg resync vol03
vxtask list确认。
vxinfo -g hjdg看看卷的情况。

论坛徽章:
0
8 [报告]
发表于 2004-05-19 21:10 |只看该作者

[求助!] 如何检查/恢复磁盘阵列上出错的volumn?

好像是hjdg04盘坏了,用vxdisk list显示什么?也试试format看看能不能看到盘的状态。

按照楼上的步骤把坏盘换掉就可以了。注意必须用luxadm和vxdiskadm一起来换盘,新盘会自动更新其数据以保持同步。

论坛徽章:
0
9 [报告]
发表于 2004-05-19 22:43 |只看该作者

[求助!] 如何检查/恢复磁盘阵列上出错的volumn?

原帖由 "melonm" 发表:
好像是hjdg04盘坏了,用vxdisk list显示什么?也试试format看看能不能看到盘的状态。

按照楼上的步骤把坏盘换掉就可以了。注意必须用luxadm和vxdiskadm一起来换盘,新盘会自动更新其数据以保持同步。


# vxdisk list
DEVICE       TYPE      DISK         GROUP        STATUS
c1t10d0s2    sliced    -            -            error
c1t10d0s7    simple    c1t10d0s7    rootdg       online
c1t11d0s2    sliced    -            -            error
c2t6d0s2     sliced    hjdg05       hjdg         online
c2t16d0s2    sliced    hjdg01       hjdg         online
c2t19d0s2    sliced    hjdg02       hjdg         online
c2t22d0s2    sliced    hjdg03       hjdg         online
-                    -          hjdg04        hjdg         failed failing was:c2t3d0s2

用format看不到有问题的那两个盘了(看到8个,本来总共10个)。手头没有多余的硬盘,除了换盘没有其他的办法了么?(比如说,每个Volumn本来有5个subdisk,现在暂时用4个顶着先行么?)

论坛徽章:
0
10 [报告]
发表于 2004-05-20 08:04 |只看该作者

[求助!] 如何检查/恢复磁盘阵列上出错的volumn?

试过用 -o unsafe 来启动volume吗?(有一定风险,建议还是先考虑换盘)

>;vxvol -f start vol03
>;vxvm:vxvol: ERROR: Volume vol03 is not safely startable; >;there is no Raid5 log and some subdisk is missing. Use -o >;unsafe to start unsafely.
>;vxvm:vxvol: ERROR: Volume vol03 is not started
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP