Chinaunix

标题: [原创]RAID5两快盘出现黄灯后的恢复 [打印本页]

作者: bird_man 时间: 2004-02-24 18:06
标题: [原创]RAID5两快盘出现黄灯后的恢复
环境:IBM P610主机+4channel scsi raid 卡,4个18Gdisk作raid5,没有hotspare.

第一天:客户说有一个盘黄灯亮
第三天:另外一个盘黄灯亮

#lspv的时候输出只有
hdisk0       000b85cdf79f0ec5 rootvg
而做完RAID后的disk没有了

#lsdev -Cc disk
hdisk0 Available 10-60-00-0,0 16 Bit LVD SCSI Disk Drive
hdisk1 Defined 20-60-00-0,0 SCSI Disk Array RAID 5

VG不能varyon

diag运行出现下面的错误.
The Service Request Number(s)/Probable Cause(s)
(causes are listed in descending order of probability):

  66D-111: The disk has been failed by the adapter.
FRU: n/a[18CCH/ID 2B
Physical Disk

  66D-111: The disk has been failed by the adapter.
FRU: n/a[18CCH/ID 2C
Physical Disk

操作步骤:
1\#smitty pdam
List PCI SCSI Disk Arrays
    Create a PCI SCSI Disk Array
    Delete a PCI SCSI Disk Array
    Configure a Defined PCI SCSI Disk Array
    Change/Show a PCI SCSI Disk Array
    Reconstruct a PCI SCSI Disk Array
    Revive a FAILED Drive in a PCI SCSI Disk Array
    Fail a Drive in a PCI SCSI Disk Array
    Change/Show PCI SCSI RAID Drive Status
    Perform Consistency Check
    Display Status of Adapter Write Cache
    Recovery Options\


选择List PCI SCSI Disk Arrays
7mscraid0 Available 20-60 PCI 4-Channel Ultra3 SCSI RAID Adapter[出现选择]

hdisk1  Defined Raid  5 20-60-00-0,0 52072 MB Status DEAD
hdisk1  2A Channel 2 ID A  ONLINE
hdisk1  2B Channel 2 ID B  FAILED DRIVE
hdisk1  2C Channel 2 ID C  FAILED DRIVE
hdisk1  2D Channel 2 ID D  ONLINE


2\#smitty pdam
Revive a FAILED Drive in a PCI SCSI Disk Array[目的强行将硬盘给online]
2B Channel 2 ID B  FAILED DRIVE
2C Channel 2 ID C  FAILED DRIVE

选择2B Channel 2 ID B  FAILED DRIVE
PCI SCSI Disk Array    hdisk1
    Channel ID                   C2B

    会车后出现下面的提示

    Continuing may delete information you may want
to keep.  This is your last chance to stop
before continuing.[26;19HPress Enter to continue.
Press Cancel to return to the application
敲会车键继续[ 确认命令完成是ok的 ]

3\通过List PCI SCSI Disk Arrays查看RAID的状态
出现scraid0 Available 20-60 PCI 4-Channel Ultra3 SCSI RAID Adapter[进行选择]

hdisk1  Defined Raid  5 20-60-00-0,0 52072 MB Status DEGRADED
hdisk1  2A Channel 2 ID A  ONLINE
hdisk1  2B Channel 2 ID B  ONLINE
hdisk1  2C Channel 2 ID C  FAILED DRIVE
hdisk1  2D Channel 2 ID D  ONLINE
注意在这是2B已经是online.

4\执行diag命令进行诊断,结果显示入下
The Service Request Number(s)/Probable Cause(s)
causes are listed in descending order of probability):

    66D-111: The disk has been failed by the adapter.
FRU: n/a CH/ID 2B
Physical Disk

5\#varyonvg datavg
此时datavg能够varyon,同时文件系统可以mount上,

6\换上2CChannel上的硬盘,RAID进行数据重建.重建完成后ok
#smitty pdam
List PCI SCSI Disk Arrays

结果如下:
hdisk1  Available Raid  5 20-60-00-0,0 52072 MB Status OPTIMAL
      hdisk1  2A Channel 2 ID A  ONLINE - 17357Meg
      hdisk1  2B Channel 2 ID B  ONLINE - 17357Meg
      hdisk1  2C Channel 2 ID C  ONLINE - 17357Meg
      hdisk1  2D Channel 2 ID D  ONLINE - 17357Meg

7\#varyonvg datavg[结果显示ok]

8\#fsck -y /dev/datalv
** Checking /dev/rdatalv (/orada)
** Phase 0 - Check Log
log redo processing for /dev/rdatalv
** Phase 1 - Check Blocks and Sizes
Block count wrong, Inode=16388 (ADJUSTED)
Fragment allocated to file larger than 32k (Inode=16664)
Fragment allocated to file larger than 32k (Inode=16665)
Fragment allocated to file larger than 32k (Inode=16666)
Fragment allocated to file larger than 32k (Inode=16670)
Fragment allocated to file larger than 32k (Inode=16671)
Unknown file type I=16785  owner=root mode=0
size=0 mtime=Jan 18 21:05 1970  (CLEARED)

.......
.......
.......

size=0 mtime=Jan 01 08:00 1970  (CLEARED)
** Phase 5 - Check Inode Map
Bad Inode Map (SALVAGED)
** Phase 5b - Salvage Inode Map
** Phase 6 - Check Block Map
Bad Block Map (SALVAGED)
** Phase 6b - Salvage Block Map
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
-1 blocks missing
-1 blocks missing
Superblock is marked dirty (FIXED)
-430 files 70114432 blocks 53128488 free
***** Filesystem was modified *****

9\#mount /oradata
进行读些测试,结果ok.

在os一级ok,文件系统能正常进行读些.

作者: 毒药 时间: 2004-02-26 14:43
标题: [原创]RAID5两快盘出现黄灯后的恢复
顶！

作者: kevinbi 时间: 2004-02-26 18:53
标题: [原创]RAID5两快盘出现黄灯后的恢复
不错。你怎么不把2C也强制在线？是不是你试过了，不可以，只有2B可以强制在线？

作者: bird_man 时间: 2004-02-26 20:43
标题: [原创]RAID5两快盘出现黄灯后的恢复
[quote]原帖由 "kevinbi"]不错。你怎么不把2C也强制在线？是不是你试过了，不可以，只有2B可以强制在线？[/quote 发表：

dui

作者: david5337 时间: 2004-02-27 11:21
标题: [原创]RAID5两快盘出现黄灯后的恢复
强人。
左右都可以试出来哦！

作者: McBeal 时间: 2004-02-27 13:28
标题: [原创]RAID5两快盘出现黄灯后的恢复
不错.
顺道说一下.这个论坛很少人会说troubleshooting的结果跟细节.
几乎都是上来呼救.等有人提出解决方式后.
就没有下文了.觉得不是很好.好像需要的时候就来.
自己的问题解决了.就不管了…顺道post一下结果都没有…..

作者: biml2002 时间: 2004-02-27 21:34
标题: [原创]RAID5两快盘出现黄灯后的恢复
楼主说的很好，我以前就发表过意见，可是很多人都是看到解决方法，就跑了，不见了踪影。无语！

作者: wdbj 时间: 2004-02-28 10:02
标题: [原创]RAID5两快盘出现黄灯后的恢复
两块盘坏掉一般来说处理的方法都是先尝试强行online那块后坏的，然后rebuild恢复raid后，再利用这个机会换掉那块先坏的，再rebuild。
这样所有盘都Online了，不过最好还是换了那块后坏的，再重新rebuild一次。
不过不是每次都那么幸运，能够强行Online成功。
ibm的阵列没搞过，hp的va也有类似的Issue, 算是不得已的最后一招了。

作者: hamwork 时间: 2004-03-02 14:07
标题: [原创]RAID5两快盘出现黄灯后的恢复
8错，不过存在侥幸因素。2B在同步完成后，后来也更换了吗？？

作者: dugong 时间: 2004-03-02 15:23
标题: [原创]RAID5两快盘出现黄灯后的恢复
看来后面坏的盘是逻辑错误，如果也是物理错的话，估计就完蛋了。不过在初次接触raid时有人说过，两块盘同时坏的概率很低，真的是这样吗，各位碰到过此类情况吗？

作者: gaoxintian 时间: 2004-03-02 15:43
标题: [原创]RAID5两快盘出现黄灯后的恢复

原帖由 "wdbj" 发表：
两块盘坏掉一般来说处理的方法都是先尝试强行online那块后坏的，然后rebuild恢复raid后，再利用这个机会换掉那块先坏的，再rebuild。
这样所有盘都Online了，不过最好还是换了那块后坏的，再重新rebuild一次。
不?.........

不管是IBM、HP的系统都一样！

作者: alexsco 时间: 2004-03-02 17:02
标题: [原创]RAID5两快盘出现黄灯后的恢复
路过！

作者: hzcall 时间: 2004-03-05 14:49
标题: [原创]RAID5两快盘出现黄灯后的恢复
用的是什么系统?
和系统有没有关系呢?

作者: inhance 时间: 2005-12-08 11:23
支持

作者: inhance 时间: 2005-12-08 14:21
顶一顶

作者: qq6810 时间: 2005-12-11 17:40
支持一下。这样的文章能不支持吗？呵呵

作者: prettycat2008 时间: 2006-08-22 11:45
我碰到过所有灯都黄的情况，主机和阵列都亮黄灯了

作者: aladdin7912 时间: 2006-08-22 12:05

原帖由 wdbj 于 2004-2-28 10:02 发表
两块盘坏掉一般来说处理的方法都是先尝试强行online那块后坏的，然后rebuild恢复raid后，再利用这个机会换掉那块先坏的，再rebuild。
这样所有盘都Online了，不过最好还是换了那块后坏的，再重新rebuild一次。
...

这样操作才是正确，不要盲目的尝试ONLINE，如果把先出问题的那块强行ONLINE，并对后出问题的盘rebuild的话，数据就完全被毁掉了。
通常来说RAID5中两块，或两块以上硬盘同时出现问题的几率是非常低，但并不代表这种情况不会发生。最常见的情况是一块硬盘先出问题，在没有发现，或是未及时更换之前，又一块硬盘出现问题，造成服务器瘫痪。这时候一定要分析哪块盘是后出问题的，因为这块盘上的数据才是最“新鲜”的，与RAID中其他硬盘的数据组合后才是完整，并且可以正常使用的。

作者: vincent1881 时间: 2006-08-22 12:28
严重支持楼上的！！：），在判断之前肯定也要查看阵列的日志，根据掉盘时间的先后顺序确定先online哪个盘，这点很重要，曾经遇过一样的情况和我的处理方法也是一样，但rebuild回来的数据已经不全，95%的可用，其他的丢失。。。。。。。掉2个盘的情况丢失部分数据还是会有的。

作者: shiqiaoliang 时间: 2006-08-22 14:22
04年的帖子了，还拿来探讨。2年多了。时间过的真快。

作者: 星空游子 时间: 2006-09-11 12:31
帖子虽旧，但对于很多人来说这就是经验，可以学习的经验。
学习旧帖子总比一上来就只会发帖子问问题好阿！

作者: helixor 时间: 2006-09-11 15:48
raid5其实不是很安全，尤其是当几块硬盘在同一个loop里的时候。所以才会出现raid6和raiddp之类的技术。将来随着大容量SATA盘的普及，重构一个raid5的组，需要很长的时间，在重构时剩余硬盘出现问题的概率就高了。raid6和raiddp技术就更有必要了。

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)