免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3957 | 回复: 18
打印 上一主题 下一主题

[求助!] 如何检查/恢复磁盘阵列上出错的volumn? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2004-05-19 12:34 |只看该作者 |倒序浏览
错误现象:\r\n  磁盘阵列上的volumn无法从错误中恢复启动:\r\n  vxvol -f start vol03\r\nvxvm:vxvol: ERROR: Volume vol03 is not safely startable; there is no Raid5 log and some subdisk is missing.  Use -o unsafe to start unsafely.\r\n  vxvm:vxvol: ERROR: Volume vol03 is not started\r\n  估计是磁盘阵列中的两个硬盘出了问题。\r\n\r\n\r\n磁盘阵列基本情况: \r\n        型号:Sun StorEdge A5000(具体A5000还是其他的,可能写错,因为现在在外地。请问如何可以查看?)\r\n        共10个磁盘(ssd0 ~ ssd9)做RAID(系统记录中显示做的是RAID5)\r\n        1个dg: hjdg\r\n        5个dm: hjdg1 ~ hjdg5。\r\n        每个dm包含5个subdisk,如:hjdg01-01 ~ hjdg01-05\r\n        总共三个volumn : vol01 vol02 vol03。每个vol有1个plex,分别为vol01-01 vol02-01 vol03-01\r\n\r\n        现查看系统记录,发现两个磁盘(ssd1和ssd6)出现了问题,(它们应该是共同组成了dm:hjdg-04),\r\n        导致hjdg04上的三个subdisk: hjdg04-01,hjdg04-02,hjdg04-03均出现NODEVICE标志。\r\n        然后所有的volumn都连不上了,使用vxvol -f 和 -o unsafe 都无法启动。\r\n        请问问题可能出现在哪里?\r\n                (1。有否可能是光纤连接线出现问题?\r\n                  2。硬盘损坏可能吗?如果损坏了,能否先撤出来,其他的硬盘用着先?各vol在hjdg04中的数据是否会丢失?)\r\n\r\n因为对Volumn管理生疏,望能指教如何检查,如何恢复。万分感谢!

论坛徽章:
0
2 [报告]
发表于 2004-05-19 12:40 |只看该作者

[求助!] 如何检查/恢复磁盘阵列上出错的volumn?

这是当时系统出错时的信息\r\n\r\n20:07:21  unix: /sbus@b,0/SUNW,socal@2,0/sf@1,0 (sf5):\r\n20:07:21          Open failure to target 0x3forcing LIP\r\n20:07:21  unix: ID[SUNWssa.socal.link.5010] socal2: port 1: Fibre Channel is OFFLINE\r\n20:07:21  unix: ID[SUNWssa.socal.link.6010] socal2: port 1: Fibre Channel Loop is ONLINE\r\n20:07:22  unix: /sbus@b,0/SUNW,socal@2,0/sf@0,0 (sf4):\r\n20:07:22          Open failure to target 0x3forcing LIP\r\n20:07:22  unix: WARNING: /sbus@b,0/SUNW,socal@2,0/sf@0,0/ssd@w21000020378e562e,0 (ssd1):\r\n20:07:22          SCSI transport failed: reason \'tran_err\': retrying command\r\n20:07:22  unix: ID[SUNWssa.socal.link.5010] socal2: port 0: Fibre Channel is OFFLINE\r\n20:07:22  unix: ID[SUNWssa.socal.link.6010] socal2: port 0: Fibre Channel Loop is ONLINE\r\n20:07:31  unix: /sbus@b,0/SUNW,socal@2,0/sf@1,0 (sf5):\r\n20:07:31          INQUIRY to LUN 0x0 to target 0xd retrying\r\n20:07:31  unix: /sbus@b,0/SUNW,socal@2,0/sf@1,0 (sf5):\r\n20:07:31          target 0x3 al_pa 0xe2 LUN 0 offlined\r\n20:07:31  unix: WARNING: /sbus@b,0/SUNW,socal@2,0/sf@1,0/ssd@w22000020378e562e,0 (ssd6):\r\n20:07:31          SCSI transport failed: reason \'reset\': retrying command\r\n\r\n20:07:32  unix: NOTICE: vxvm:vxdmp: disabled path 118/0x8 belonging to the dmpnode 154/0x18\r\n20:07:32  unix: NOTICE: vxvm:vxdmp: disabled path 118/0x30 belonging to the dmpnode 154/0x18\r\n20:07:32  unix: NOTICE: vxvm:vxdmp: disabled dmpnode 154/0x18\r\n20:07:32  unix: NOTICE: vxdmp: Path failure on 118/52\r\n20:07:32  last message repeated 13 times\r\n20:07:32  unix: NOTICE: vxdmp: Path failure on 118/12\r\n20:07:32  last message repeated 6 times\r\n20:07:33  unix: WARNING: vxvm:vxio: object hjdg04-02 detached from RAID-5 vol02 at column 0 offset 0\r\n20:07:33  unix: WARNING: vxvm:vxio: RAID-5 vol02 entering degraded mode operation\r\n20:07:33  unix: WARNING: vxvm:vxio: object hjdg04-03 detached from RAID-5 vol03 at column 0 offset 0\r\n20:07:33  unix: WARNING: vxvm:vxio: RAID-5 vol03 entering degraded mode operation\r\n20:07:34  unix: WARNING: vxvm:vxio: object hjdg04-01 detached from RAID-5 vol01 at column 0 offset 0\r\n20:07:34  unix: WARNING: vxvm:vxio: RAID-5 vol01 entering degraded mode operation\r\n\r\n------------------------------------------------------------------------------------------\r\nvxprint 记录:\r\n\r\ndg hjdg         default      default  98000    969619189.1258.s5500\r\n\r\ndm hjdg01       c2t16d0s2    sliced   2888     71124291 -\r\ndm hjdg02       c2t19d0s2    sliced   2888     71124291 -\r\ndm hjdg03       c2t22d0s2    sliced   2888     71124291 -\r\ndm hjdg04       -            -        -        -        NODEVICE\r\ndm hjdg05       c2t6d0s2     sliced   2888     71124291 -\r\n\r\nv  vol01        raid5        DISABLED ACTIVE   62914560 RAID      -\r\npl vol01-01     vol01        DISABLED ACTIVE   62922368 RAID      5/32     RW\r\nsd hjdg04-01    vol01-01     hjdg04   0        15730605 0/0       -        NDEV\r\nsd hjdg05-01    vol01-01     hjdg05   0        15730605 1/0       c2t6d0   ENA\r\nsd hjdg01-01    vol01-01     hjdg01   0        15730605 2/0       c2t16d0  ENA\r\nsd hjdg02-01    vol01-01     hjdg02   0        15730605 3/0       c2t19d0  ENA\r\nsd hjdg03-01    vol01-01     hjdg03   0        15730605 4/0       c2t22d0  ENA\r\n\r\nv  vol02        raid5        DISABLED ACTIVE   125829120 RAID     -\r\npl vol02-01     vol02        DISABLED ACTIVE   125833216 RAID     5/32     RW\r\nsd hjdg04-02    vol02-01     hjdg04   15730605 31458321 0/0       -        NDEV\r\nsd hjdg05-02    vol02-01     hjdg05   15730605 31458321 1/0       c2t6d0   ENA\r\nsd hjdg01-02    vol02-01     hjdg01   15730605 31458321 2/0       c2t16d0  ENA\r\nsd hjdg02-02    vol02-01     hjdg02   15730605 31458321 3/0       c2t19d0  ENA\r\nsd hjdg03-02    vol02-01     hjdg03   15730605 31458321 4/0       c2t22d0  ENA\r\n\r\nv  vol03        raid5        DISABLED ACTIVE   95739904 RAID      -\r\npl vol03-01     vol03        DISABLED ACTIVE   95741440 RAID      5/32     RW\r\nsd hjdg04-03    vol03-01     hjdg04   47188926 23935365 0/0       -        NDEV\r\nsd hjdg05-03    vol03-01     hjdg05   47188926 23935365 1/0       c2t6d0   ENA\r\nsd hjdg01-03    vol03-01     hjdg01   47188926 23935365 2/0       c2t16d0  ENA\r\nsd hjdg02-03    vol03-01     hjdg02   47188926 23935365 3/0       c2t19d0  ENA\r\nsd hjdg03-03    vol03-01     hjdg03   47188926 23935365 4/0       c2t22d0  ENA

论坛徽章:
0
3 [报告]
发表于 2004-05-19 12:54 |只看该作者

[求助!] 如何检查/恢复磁盘阵列上出错的volumn?

先用luxadm查看磁盘状态,如luxadm probe什么的,找到有问题的磁盘(如sd1&sd6)。\r\nvxprint -st查看相应的subdisk。\r\nvxprint -Aht查看对应的卷,如坏盘都在一个卷中,有可能就要从备份恢复了。但可以试着换其中一个新盘:\r\n1. unmount 坏卷对应的文件系统,中止读写操作;\r\n2. vxdiskadm选项4;\r\n3. luxadm remove_device -F <raw device>;;\r\n4. 换上新硬盘, luxadm insert_device ...;\r\n5. vxdctl enable;\r\n6. vxdiskadm选项5。

论坛徽章:
0
4 [报告]
发表于 2004-05-19 13:07 |只看该作者

[求助!] 如何检查/恢复磁盘阵列上出错的volumn?

原帖由 \"melonm\" 发表:\n先用luxadm查看磁盘状态,如luxadm probe什么的,找到有问题的磁盘(如sd1&sd6)。\r\nvxprint -st查看相应的subdisk。\r\nvxprint -Aht查看对应的卷,如坏盘都在一个卷中,有可能就要从备份恢复了。但可以试着换其中一个..........
\r\n感谢回复!\r\n我用luxadm probe显示(没有提到出错的硬盘?是否还需要其他参数?)\r\n--------------------------------------------------------------\r\nFound Enclosure(s):\r\nSENA               Name:a   Node WWN:50800200000a1da8   \r\n  Logical Path:/dev/es/ses0\r\n  Logical Path:/dev/es/ses1\r\n  Logical Path:/dev/es/ses2\r\n  Logical Path:/dev/es/ses3\r\n--------------------------------------------------------------\r\n\r\n\r\nvxprint -st显示的有问题的dm中的3个subdisk:\r\n--------------------------------------------------------------\r\nsd hjdg04-01    vol01-01     hjdg04   0        15730605 0/0       -        NDEV\r\nsd hjdg04-02    vol02-01     hjdg04   15730605 31458321 0/0       -        NDEV\r\nsd hjdg04-03    vol03-01     hjdg04   47188926 23935365 0/0       -        NDEV\r\n--------------------------------------------------------------\r\n这3个subdisk分别处在三个volumn中,有可能通过其他subdisk中的数据来恢复吗?如果用vxdiskadm选项4删除这些subdisk,三个volumn中的数据会有缺失吗? 并且,删除之后还能添加回去吗?(因为特殊原因,现在没法去机房换硬盘测试)

论坛徽章:
0
5 [报告]
发表于 2004-05-19 15:52 |只看该作者

[求助!] 如何检查/恢复磁盘阵列上出错的volumn?

哪位还能指点一些我以下这些问题吗?(老板催得很急,万分感谢~)\r\n这3个subdisk分别处在三个volumn中,有可能通过其他subdisk中的数据来恢复吗?如果用vxdiskadm选项4删除这些subdisk,三个volumn中的数据会有缺失吗? 并且,删除之后还能添加回去吗?(因为特殊原因,现在没法去机房换硬盘测试)

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
6 [报告]
发表于 2004-05-19 16:24 |只看该作者

[求助!] 如何检查/恢复磁盘阵列上出错的volumn?

用vxdisk看看究竟是1个还是2个盘损坏。对于RAID-5的卷,可以允许出现1个坏盘。\r\n如果只有1个盘损坏,那么可以使用vxdiskadm功能来进行更换。方法是,先加入新盘,确认系统下可以看到它;\r\n到vxdiskadm中先选4(Remove a disk for replacement)将坏盘标记为准备替换;\r\n选5(Replace a failed or removed disk),将新盘替代刚才标记的坏盘;\r\n确认(list)新盘已被接受后,取走坏盘,重新start卷。\r\n操作一定小心啊,不要随便删除subdisk!\r\n\r\n如果有2个以上坏盘,数据无望了。

论坛徽章:
7
荣誉会员
日期:2011-11-23 16:44:17水瓶座
日期:2013-08-28 21:20:16丑牛
日期:2013-10-02 21:01:462015年迎新春徽章
日期:2015-03-04 09:54:45操作系统版块每日发帖之星
日期:2016-06-05 06:20:0015-16赛季CBA联赛之吉林
日期:2016-06-20 08:24:0515-16赛季CBA联赛之四川
日期:2016-08-18 15:02:02
7 [报告]
发表于 2004-05-19 18:32 |只看该作者

[求助!] 如何检查/恢复磁盘阵列上出错的volumn?

你这问题看样子还不算太严重。你尝试一下替换失败盘。并且做一下同步。\r\nvxdiskadm 选5,接着漫漫的按照提示来。\r\nvxtask list看看是否存在同步进程。\r\n如果系统的坏盘换完,系统未做同步,那么你尝试一下手工同步:\r\nvxvol -g hjdg resync vol03\r\nvxtask list确认。\r\nvxinfo -g hjdg看看卷的情况。

论坛徽章:
0
8 [报告]
发表于 2004-05-19 21:10 |只看该作者

[求助!] 如何检查/恢复磁盘阵列上出错的volumn?

好像是hjdg04盘坏了,用vxdisk list显示什么?也试试format看看能不能看到盘的状态。\r\n\r\n按照楼上的步骤把坏盘换掉就可以了。注意必须用luxadm和vxdiskadm一起来换盘,新盘会自动更新其数据以保持同步。

论坛徽章:
0
9 [报告]
发表于 2004-05-19 22:43 |只看该作者

[求助!] 如何检查/恢复磁盘阵列上出错的volumn?

原帖由 \"melonm\" 发表:\n好像是hjdg04盘坏了,用vxdisk list显示什么?也试试format看看能不能看到盘的状态。\r\n\r\n按照楼上的步骤把坏盘换掉就可以了。注意必须用luxadm和vxdiskadm一起来换盘,新盘会自动更新其数据以保持同步。
\r\n\r\n# vxdisk list\r\nDEVICE       TYPE      DISK         GROUP        STATUS\r\nc1t10d0s2    sliced    -            -            error\r\nc1t10d0s7    simple    c1t10d0s7    rootdg       online\r\nc1t11d0s2    sliced    -            -            error\r\nc2t6d0s2     sliced    hjdg05       hjdg         online\r\nc2t16d0s2    sliced    hjdg01       hjdg         online\r\nc2t19d0s2    sliced    hjdg02       hjdg         online\r\nc2t22d0s2    sliced    hjdg03       hjdg         online\r\n-                    -          hjdg04        hjdg         failed failing was:c2t3d0s2\r\n\r\n用format看不到有问题的那两个盘了(看到8个,本来总共10个)。手头没有多余的硬盘,除了换盘没有其他的办法了么?(比如说,每个Volumn本来有5个subdisk,现在暂时用4个顶着先行么?)

论坛徽章:
0
10 [报告]
发表于 2004-05-20 08:04 |只看该作者

[求助!] 如何检查/恢复磁盘阵列上出错的volumn?

试过用 -o unsafe 来启动volume吗?(有一定风险,建议还是先考虑换盘)\r\n\r\n>;vxvol -f start vol03 \r\n>;vxvm:vxvol: ERROR: Volume vol03 is not safely startable; >;there is no Raid5 log and some subdisk is missing. Use -o >;unsafe to start unsafely. \r\n>;vxvm:vxvol: ERROR: Volume vol03 is not started
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP