论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2004-05-19 12:34 |只看该作者 |倒序浏览

错误现象：
  磁盘阵列上的volumn无法从错误中恢复启动：
  vxvol -f start vol03
vxvm:vxvol: ERROR: Volume vol03 is not safely startable; there is no Raid5 log and some subdisk is missing.  Use -o unsafe to start unsafely.
  vxvm:vxvol: ERROR: Volume vol03 is not started
  估计是磁盘阵列中的两个硬盘出了问题。

磁盘阵列基本情况：
型号：Sun StorEdge A5000（具体A5000还是其他的，可能写错，因为现在在外地。请问如何可以查看？）
共10个磁盘（ssd0 ~ ssd9）做RAID（系统记录中显示做的是RAID5）
1个dg: hjdg
5个dm: hjdg1 ~ hjdg5。
每个dm包含5个subdisk，如：hjdg01-01 ~ hjdg01-05
总共三个volumn : vol01 vol02 vol03。每个vol有1个plex，分别为vol01-01 vol02-01 vol03-01

现查看系统记录，发现两个磁盘（ssd1和ssd6）出现了问题，（它们应该是共同组成了dm:hjdg-04），
导致hjdg04上的三个subdisk: hjdg04-01,hjdg04-02,hjdg04-03均出现NODEVICE标志。
然后所有的volumn都连不上了，使用vxvol -f 和 -o unsafe 都无法启动。
请问问题可能出现在哪里？
（1。有否可能是光纤连接线出现问题？
   2。硬盘损坏可能吗？如果损坏了，能否先撤出来，其他的硬盘用着先？各vol在hjdg04中的数据是否会丢失？）

因为对Volumn管理生疏，望能指教如何检查，如何恢复。万分感谢！

文库|博客

fahrenheit

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2004-05-19 12:40 |只看该作者

[求助！] 如何检查/恢复磁盘阵列上出错的volumn？

这是当时系统出错时的信息

20:07:21  unix: /sbus@b,0/SUNW,socal@2,0/sf@1,0 (sf5):
20:07:21    Open failure to target 0x3forcing LIP
20:07:21  unix: ID[SUNWssa.socal.link.5010] socal2: port 1: Fibre Channel is OFFLINE
20:07:21  unix: ID[SUNWssa.socal.link.6010] socal2: port 1: Fibre Channel Loop is ONLINE
20:07:22  unix: /sbus@b,0/SUNW,socal@2,0/sf@0,0 (sf4):
20:07:22    Open failure to target 0x3forcing LIP
20:07:22  unix: WARNING: /sbus@b,0/SUNW,socal@2,0/sf@0,0/ssd@w21000020378e562e,0 (ssd1):
20:07:22    SCSI transport failed: reason 'tran_err': retrying command
20:07:22  unix: ID[SUNWssa.socal.link.5010] socal2: port 0: Fibre Channel is OFFLINE
20:07:22  unix: ID[SUNWssa.socal.link.6010] socal2: port 0: Fibre Channel Loop is ONLINE
20:07:31  unix: /sbus@b,0/SUNW,socal@2,0/sf@1,0 (sf5):
20:07:31    INQUIRY to LUN 0x0 to target 0xd retrying
20:07:31  unix: /sbus@b,0/SUNW,socal@2,0/sf@1,0 (sf5):
20:07:31    target 0x3 al_pa 0xe2 LUN 0 offlined
20:07:31  unix: WARNING: /sbus@b,0/SUNW,socal@2,0/sf@1,0/ssd@w22000020378e562e,0 (ssd6):
20:07:31    SCSI transport failed: reason 'reset': retrying command

20:07:32  unix: NOTICE: vxvm:vxdmp: disabled path 118/0x8 belonging to the dmpnode 154/0x18
20:07:32  unix: NOTICE: vxvm:vxdmp: disabled path 118/0x30 belonging to the dmpnode 154/0x18
20:07:32  unix: NOTICE: vxvm:vxdmp: disabled dmpnode 154/0x18
20:07:32  unix: NOTICE: vxdmp: Path failure on 118/52
20:07:32  last message repeated 13 times
20:07:32  unix: NOTICE: vxdmp: Path failure on 118/12
20:07:32  last message repeated 6 times
20:07:33  unix: WARNING: vxvm:vxio: object hjdg04-02 detached from RAID-5 vol02 at column 0 offset 0
20:07:33  unix: WARNING: vxvm:vxio: RAID-5 vol02 entering degraded mode operation
20:07:33  unix: WARNING: vxvm:vxio: object hjdg04-03 detached from RAID-5 vol03 at column 0 offset 0
20:07:33  unix: WARNING: vxvm:vxio: RAID-5 vol03 entering degraded mode operation
20:07:34  unix: WARNING: vxvm:vxio: object hjdg04-01 detached from RAID-5 vol01 at column 0 offset 0
20:07:34  unix: WARNING: vxvm:vxio: RAID-5 vol01 entering degraded mode operation

------------------------------------------------------------------------------------------
vxprint 记录：

dg hjdg       default    default  98000 969619189.1258.s5500

dm hjdg01    c2t16d0s2 sliced 2888    71124291 -
dm hjdg02    c2t19d0s2 sliced 2888    71124291 -
dm hjdg03    c2t22d0s2 sliced 2888    71124291 -
dm hjdg04    -          -       -       -       NODEVICE
dm hjdg05    c2t6d0s2    sliced 2888    71124291 -

v  vol01       raid5       DISABLED ACTIVE 62914560 RAID    -
pl vol01-01    vol01       DISABLED ACTIVE 62922368 RAID    5/32    RW
sd hjdg04-01 vol01-01    hjdg04 0       15730605 0/0    -       NDEV
sd hjdg05-01 vol01-01    hjdg05 0       15730605 1/0    c2t6d0 ENA
sd hjdg01-01 vol01-01    hjdg01 0       15730605 2/0    c2t16d0  ENA
sd hjdg02-01 vol01-01    hjdg02 0       15730605 3/0    c2t19d0  ENA
sd hjdg03-01 vol01-01    hjdg03 0       15730605 4/0    c2t22d0  ENA

v  vol02       raid5       DISABLED ACTIVE 125829120 RAID    -
pl vol02-01    vol02       DISABLED ACTIVE 125833216 RAID    5/32    RW
sd hjdg04-02 vol02-01    hjdg04 15730605 31458321 0/0    -       NDEV
sd hjdg05-02 vol02-01    hjdg05 15730605 31458321 1/0    c2t6d0 ENA
sd hjdg01-02 vol02-01    hjdg01 15730605 31458321 2/0    c2t16d0  ENA
sd hjdg02-02 vol02-01    hjdg02 15730605 31458321 3/0    c2t19d0  ENA
sd hjdg03-02 vol02-01    hjdg03 15730605 31458321 4/0    c2t22d0  ENA

v  vol03       raid5       DISABLED ACTIVE 95739904 RAID    -
pl vol03-01    vol03       DISABLED ACTIVE 95741440 RAID    5/32    RW
sd hjdg04-03 vol03-01    hjdg04 47188926 23935365 0/0    -       NDEV
sd hjdg05-03 vol03-01    hjdg05 47188926 23935365 1/0    c2t6d0 ENA
sd hjdg01-03 vol03-01    hjdg01 47188926 23935365 2/0    c2t16d0  ENA
sd hjdg02-03 vol03-01    hjdg02 47188926 23935365 3/0    c2t19d0  ENA
sd hjdg03-03 vol03-01    hjdg03 47188926 23935365 4/0    c2t22d0  ENA

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

melonm

小富即安

论坛徽章:: 0

3楼 [报告]

发表于 2004-05-19 12:54 |只看该作者

[求助！] 如何检查/恢复磁盘阵列上出错的volumn？

先用luxadm查看磁盘状态，如luxadm probe什么的，找到有问题的磁盘（如sd1&sd6)。
vxprint -st查看相应的subdisk。
vxprint -Aht查看对应的卷，如坏盘都在一个卷中，有可能就要从备份恢复了。但可以试着换其中一个新盘：
1. unmount 坏卷对应的文件系统，中止读写操作；
2. vxdiskadm选项4；
3. luxadm remove_device -F <raw device>;；
4. 换上新硬盘, luxadm insert_device ...；
5. vxdctl enable；
6. vxdiskadm选项5。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

fahrenheit

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2004-05-19 13:07 |只看该作者

[求助！] 如何检查/恢复磁盘阵列上出错的volumn？

原帖由 "melonm" 发表：
先用luxadm查看磁盘状态，如luxadm probe什么的，找到有问题的磁盘（如sd1&sd6)。
vxprint -st查看相应的subdisk。
vxprint -Aht查看对应的卷，如坏盘都在一个卷中，有可能就要从备份恢复了。但可以试着换其中一个..........

感谢回复！
我用luxadm probe显示（没有提到出错的硬盘？是否还需要其他参数？）
--------------------------------------------------------------
Found Enclosure(s):
SENA             Name:a Node WWN:50800200000a1da8
  Logical Path:/dev/es/ses0
  Logical Path:/dev/es/ses1
  Logical Path:/dev/es/ses2
  Logical Path:/dev/es/ses3
--------------------------------------------------------------

vxprint -st显示的有问题的dm中的3个subdisk：
--------------------------------------------------------------
sd hjdg04-01 vol01-01    hjdg04 0       15730605 0/0    -       NDEV
sd hjdg04-02 vol02-01    hjdg04 15730605 31458321 0/0    -       NDEV
sd hjdg04-03 vol03-01    hjdg04 47188926 23935365 0/0    -       NDEV
--------------------------------------------------------------
这3个subdisk分别处在三个volumn中，有可能通过其他subdisk中的数据来恢复吗？如果用vxdiskadm选项4删除这些subdisk，三个volumn中的数据会有缺失吗？并且，删除之后还能添加回去吗？（因为特殊原因，现在没法去机房换硬盘测试）

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

fahrenheit

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2004-05-19 15:52 |只看该作者

[求助！] 如何检查/恢复磁盘阵列上出错的volumn？

哪位还能指点一些我以下这些问题吗?（老板催得很急，万分感谢~）
这3个subdisk分别处在三个volumn中，有可能通过其他subdisk中的数据来恢复吗？如果用vxdiskadm选项4删除这些subdisk，三个volumn中的数据会有缺失吗？并且，删除之后还能添加回去吗？（因为特殊原因，现在没法去机房换硬盘测试）

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Philmoon

腰缠万贯

论坛徽章:: 1

6楼 [报告]

发表于 2004-05-19 16:24 |只看该作者

[求助！] 如何检查/恢复磁盘阵列上出错的volumn？

用vxdisk看看究竟是1个还是2个盘损坏。对于RAID-5的卷，可以允许出现1个坏盘。
如果只有1个盘损坏，那么可以使用vxdiskadm功能来进行更换。方法是，先加入新盘，确认系统下可以看到它；
到vxdiskadm中先选4（Remove a disk for replacement）将坏盘标记为准备替换；
选5（Replace a failed or removed disk），将新盘替代刚才标记的坏盘；
确认（list）新盘已被接受后，取走坏盘，重新start卷。
操作一定小心啊，不要随便删除subdisk!

如果有2个以上坏盘，数据无望了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

nimysun

版主

论坛徽章:: 7

7楼 [报告]

发表于 2004-05-19 18:32 |只看该作者

[求助！] 如何检查/恢复磁盘阵列上出错的volumn？

你这问题看样子还不算太严重。你尝试一下替换失败盘。并且做一下同步。
vxdiskadm 选5，接着漫漫的按照提示来。
vxtask list看看是否存在同步进程。
如果系统的坏盘换完，系统未做同步，那么你尝试一下手工同步：
vxvol -g hjdg resync vol03
vxtask list确认。
vxinfo -g hjdg看看卷的情况。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

melonm

小富即安

论坛徽章:: 0

8楼 [报告]

发表于 2004-05-19 21:10 |只看该作者

[求助！] 如何检查/恢复磁盘阵列上出错的volumn？

好像是hjdg04盘坏了，用vxdisk list显示什么？也试试format看看能不能看到盘的状态。

按照楼上的步骤把坏盘换掉就可以了。注意必须用luxadm和vxdiskadm一起来换盘，新盘会自动更新其数据以保持同步。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

fahrenheit

白手起家

论坛徽章:: 0

9楼 [报告]

发表于 2004-05-19 22:43 |只看该作者

[求助！] 如何检查/恢复磁盘阵列上出错的volumn？

原帖由 "melonm" 发表：
好像是hjdg04盘坏了，用vxdisk list显示什么？也试试format看看能不能看到盘的状态。

按照楼上的步骤把坏盘换掉就可以了。注意必须用luxadm和vxdiskadm一起来换盘，新盘会自动更新其数据以保持同步。

# vxdisk list
DEVICE    TYPE    DISK       GROUP       STATUS
c1t10d0s2 sliced -          -          error
c1t10d0s7 simple c1t10d0s7 rootdg    online
c1t11d0s2 sliced -          -          error
c2t6d0s2    sliced hjdg05    hjdg       online
c2t16d0s2 sliced hjdg01    hjdg       online
c2t19d0s2 sliced hjdg02    hjdg       online
c2t22d0s2 sliced hjdg03    hjdg       online
-                   -       hjdg04       hjdg       failed failing was:c2t3d0s2

用format看不到有问题的那两个盘了（看到8个，本来总共10个）。手头没有多余的硬盘，除了换盘没有其他的办法了么？（比如说，每个Volumn本来有5个subdisk，现在暂时用4个顶着先行么？）

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

melonm

小富即安

论坛徽章:: 0

10楼 [报告]

发表于 2004-05-20 08:04 |只看该作者

[求助！] 如何检查/恢复磁盘阵列上出错的volumn？

试过用 -o unsafe 来启动volume吗？（有一定风险，建议还是先考虑换盘）

>;vxvol -f start vol03
>;vxvm:vxvol: ERROR: Volume vol03 is not safely startable; >;there is no Raid5 log and some subdisk is missing. Use -o >;unsafe to start unsafely.
>;vxvm:vxvol: ERROR: Volume vol03 is not started

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

返回列表

Chinaunix › 论坛 › 操作系统 › Solaris › [求助！] 如何检查/恢复磁盘阵列上出错的volumn？

[求助！] 如何检查/恢复磁盘阵列上出错的volumn？ [复制链接]

[求助！] 如何检查/恢复磁盘阵列上出错的volumn？

[求助！] 如何检查/恢复磁盘阵列上出错的volumn？

[求助！] 如何检查/恢复磁盘阵列上出错的volumn？

[求助！] 如何检查/恢复磁盘阵列上出错的volumn？

[求助！] 如何检查/恢复磁盘阵列上出错的volumn？

[求助！] 如何检查/恢复磁盘阵列上出错的volumn？

[求助！] 如何检查/恢复磁盘阵列上出错的volumn？

[求助！] 如何检查/恢复磁盘阵列上出错的volumn？

[求助！] 如何检查/恢复磁盘阵列上出错的volumn？

浏览过的版块