Chinaunix

标题: [原创]RAID5两快盘出现黄灯后的恢复 [打印本页]

作者: bird_man    时间: 2004-02-24 18:06
标题: [原创]RAID5两快盘出现黄灯后的恢复
环境:IBM P610主机+4channel scsi raid 卡,4个18Gdisk作raid5,没有hotspare.

第一天:客户说有一个盘黄灯亮
第三天:另外一个盘黄灯亮

#lspv的时候输出只有
hdisk0         000b85cdf79f0ec5    rootvg
而做完RAID后的disk没有了

#lsdev -Cc disk
hdisk0 Available 10-60-00-0,0 16 Bit LVD SCSI Disk Drive
hdisk1 Defined 20-60-00-0,0 SCSI Disk Array RAID 5

VG不能varyon




diag运行出现下面的错误.
The Service Request Number(s)/Probable Cause(s)
(causes are listed in descending order of probability):

  66D-111: The disk has been failed by the adapter.
FRU: n/aCH/ID 2B
Physical Disk

  66D-111: The disk has been failed by the adapter.
FRU: n/aCH/ID 2C
Physical Disk

操作步骤:
1\#smitty pdam
        List PCI SCSI Disk Arrays
          Create a PCI SCSI Disk Array
          Delete a PCI SCSI Disk Array
          Configure a Defined PCI SCSI Disk Array
          Change/Show a PCI SCSI Disk Array
          Reconstruct a PCI SCSI Disk Array
          Revive a FAILED Drive in a PCI SCSI Disk Array
          Fail a Drive in a PCI SCSI Disk Array
          Change/Show PCI SCSI RAID Drive Status
          Perform Consistency Check
          Display Status of Adapter Write Cache
          Recovery Options\
         

选择List PCI SCSI Disk Arrays       
7mscraid0 Available 20-60 PCI 4-Channel Ultra3 SCSI RAID Adapter[出现选择]

hdisk1  Defined Raid  5 20-60-00-0,0 52072 MB Status DEAD
hdisk1  2A Channel 2 ID A  ONLINE
hdisk1  2B Channel 2 ID B  FAILED DRIVE
hdisk1  2C Channel 2 ID C  FAILED DRIVE
hdisk1  2D Channel 2 ID D  ONLINE

             
2\#smitty pdam
        Revive a FAILED Drive in a PCI SCSI Disk Array[目的强行将硬盘给online]
2B Channel 2 ID B  FAILED DRIVE
2C Channel 2 ID C  FAILED DRIVE

选择2B Channel 2 ID B  FAILED DRIVE
        PCI SCSI Disk Array               hdisk1
          Channel ID                      C2B
         
          会车后出现下面的提示
         
          Continuing may delete information you may want
to keep.  This is your last chance to stop
before continuing.Press Enter to continue.
Press Cancel to return to the application
敲会车键继续[        确认命令完成是ok的        ]

3\通过List PCI SCSI Disk Arrays查看RAID的状态
        出现scraid0 Available 20-60 PCI 4-Channel Ultra3 SCSI RAID Adapter[进行选择]
       
        hdisk1  Defined Raid  5 20-60-00-0,0 52072 MB Status DEGRADED
        hdisk1  2A Channel 2 ID A  ONLINE
        hdisk1  2B Channel 2 ID B  ONLINE
        hdisk1  2C Channel 2 ID C  FAILED DRIVE
        hdisk1  2D Channel 2 ID D  ONLINE
        注意在这是2B已经是online.
       
4\执行diag命令进行诊断,结果显示入下
        The Service Request Number(s)/Probable Cause(s)
        causes are listed in descending order of probability):

          66D-111: The disk has been failed by the adapter.
        FRU: n/a         CH/ID 2B
        Physical Disk
       
5\#varyonvg datavg
此时datavg能够varyon,同时文件系统可以mount上,

6\换上2CChannel上的硬盘,RAID进行数据重建.重建完成后ok
#smitty pdam
        List PCI SCSI Disk Arrays
       
        结果如下:
        hdisk1  Available Raid  5 20-60-00-0,0 52072 MB Status OPTIMAL
              hdisk1  2A Channel 2 ID A  ONLINE - 17357Meg
              hdisk1  2B Channel 2 ID B  ONLINE - 17357Meg
              hdisk1  2C Channel 2 ID C  ONLINE - 17357Meg
              hdisk1  2D Channel 2 ID D  ONLINE - 17357Meg
             
7\#varyonvg datavg[结果显示ok]

8\#fsck -y /dev/datalv
        ** Checking /dev/rdatalv (/orada)
** Phase 0 - Check Log
log redo processing for /dev/rdatalv                     
** Phase 1 - Check Blocks and Sizes
Block count wrong, Inode=16388 (ADJUSTED)
Fragment allocated to file larger than 32k (Inode=16664)
Fragment allocated to file larger than 32k (Inode=16665)
Fragment allocated to file larger than 32k (Inode=16666)
Fragment allocated to file larger than 32k (Inode=16670)
Fragment allocated to file larger than 32k (Inode=16671)
Unknown file type I=16785  owner=root mode=0
size=0 mtime=Jan 18 21:05 1970  (CLEARED)


.......
.......
.......

size=0 mtime=Jan 01 08:00 1970  (CLEARED)
** Phase 5 - Check Inode Map
Bad Inode Map (SALVAGED)
** Phase 5b - Salvage Inode Map
** Phase 6 - Check Block Map
Bad Block Map (SALVAGED)
** Phase 6b - Salvage Block Map
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
map agsize bad, vm1->;agsize = -16385 agrsize = 16384
-1 blocks missing
-1 blocks missing
Superblock is marked dirty (FIXED)
-430 files 70114432 blocks 53128488 free
***** Filesystem was modified *****

9\#mount /oradata
进行读些测试,结果ok.


在os一级ok,文件系统能正常进行读些.
作者: 毒药    时间: 2004-02-26 14:43
标题: [原创]RAID5两快盘出现黄灯后的恢复
顶!
作者: kevinbi    时间: 2004-02-26 18:53
标题: [原创]RAID5两快盘出现黄灯后的恢复
不错。你怎么不把2C也强制在线?是不是你试过了,不可以,只有2B可以强制在线?
作者: bird_man    时间: 2004-02-26 20:43
标题: [原创]RAID5两快盘出现黄灯后的恢复
[quote]原帖由 "kevinbi"]不错。你怎么不把2C也强制在线?是不是你试过了,不可以,只有2B可以强制在线?[/quote 发表:


dui
作者: david5337    时间: 2004-02-27 11:21
标题: [原创]RAID5两快盘出现黄灯后的恢复
强人。
左右都可以试出来哦!
作者: McBeal    时间: 2004-02-27 13:28
标题: [原创]RAID5两快盘出现黄灯后的恢复
不错.
顺道说一下.这个论坛很少人会说troubleshooting的结果跟细节.
几乎都是上来呼救.等有人提出解决方式后.
就没有下文了.觉得不是很好.好像需要的时候就来.
自己的问题解决了.就不管了…顺道post一下结果都没有…..
作者: biml2002    时间: 2004-02-27 21:34
标题: [原创]RAID5两快盘出现黄灯后的恢复
楼主说的很好,我以前就发表过意见,可是很多人都是看到解决方法,就跑了,不见了踪影。无语!
作者: wdbj    时间: 2004-02-28 10:02
标题: [原创]RAID5两快盘出现黄灯后的恢复
两块盘坏掉一般来说处理的方法都是先尝试强行online那块后坏的,然后rebuild恢复raid后,再利用这个机会换掉那块先坏的,再rebuild。
这样所有盘都Online了,不过最好还是换了那块后坏的,再重新rebuild一次。
不过不是每次都那么幸运,能够强行Online成功。
ibm的阵列没搞过,hp的va也有类似的Issue, 算是不得已的最后一招了。
作者: hamwork    时间: 2004-03-02 14:07
标题: [原创]RAID5两快盘出现黄灯后的恢复
8错,不过存在侥幸因素。2B在同步完成后,后来也更换了吗??


    
作者: dugong    时间: 2004-03-02 15:23
标题: [原创]RAID5两快盘出现黄灯后的恢复
看来后面坏的盘是逻辑错误,如果也是物理错的话,估计就完蛋了。不过在初次接触raid时有人说过,两块盘同时坏的概率很低,真的是这样吗,各位碰到过此类情况吗?
作者: gaoxintian    时间: 2004-03-02 15:43
标题: [原创]RAID5两快盘出现黄灯后的恢复
原帖由 "wdbj" 发表:
两块盘坏掉一般来说处理的方法都是先尝试强行online那块后坏的,然后rebuild恢复raid后,再利用这个机会换掉那块先坏的,再rebuild。
这样所有盘都Online了,不过最好还是换了那块后坏的,再重新rebuild一次。
不?.........


不管是IBM、HP的系统都一样!
作者: alexsco    时间: 2004-03-02 17:02
标题: [原创]RAID5两快盘出现黄灯后的恢复
路过!
作者: hzcall    时间: 2004-03-05 14:49
标题: [原创]RAID5两快盘出现黄灯后的恢复
用的是什么系统?
和系统有没有关系呢?
作者: inhance    时间: 2005-12-08 11:23
支持
作者: inhance    时间: 2005-12-08 14:21
顶一顶
作者: qq6810    时间: 2005-12-11 17:40
支持一下。这样的文章能不支持吗?呵呵
作者: prettycat2008    时间: 2006-08-22 11:45
我碰到过所有灯都黄的情况,主机和阵列都亮黄灯了
作者: aladdin7912    时间: 2006-08-22 12:05
原帖由 wdbj 于 2004-2-28 10:02 发表
两块盘坏掉一般来说处理的方法都是先尝试强行online那块后坏的,然后rebuild恢复raid后,再利用这个机会换掉那块先坏的,再rebuild。
这样所有盘都Online了,不过最好还是换了那块后坏的,再重新rebuild一次。
...

这样操作才是正确,不要盲目的尝试ONLINE,如果把先出问题的那块强行ONLINE,并对后出问题的盘rebuild的话,数据就完全被毁掉了。
通常来说RAID5中两块,或两块以上硬盘同时出现问题的几率是非常低,但并不代表这种情况不会发生。最常见的情况是一块硬盘先出问题,在没有发现,或是未及时更换之前,又一块硬盘出现问题,造成服务器瘫痪。这时候一定要分析哪块盘是后出问题的,因为这块盘上的数据才是最“新鲜”的,与RAID中其他硬盘的数据组合后才是完整,并且可以正常使用的。
作者: vincent1881    时间: 2006-08-22 12:28
严重支持楼上的!!:),在判断之前肯定也要查看阵列的日志,根据掉盘时间的先后顺序确定先online哪个盘,这点很重要,曾经遇过一样的情况和我的处理方法也是一样,但rebuild回来的数据已经不全,95%的可用,其他的丢失。。。。。。。掉2个盘的情况丢失部分数据还是会有的。
作者: shiqiaoliang    时间: 2006-08-22 14:22
04年的帖子了,还拿来探讨。2年多了。时间过的真快。
作者: 星空游子    时间: 2006-09-11 12:31
帖子虽旧,但对于很多人来说这就是经验,可以学习的经验。
学习旧帖子总比一上来就只会发帖子问问题好阿!
作者: helixor    时间: 2006-09-11 15:48
raid5其实不是很安全,尤其是当几块硬盘在同一个loop里的时候。所以才会出现raid6和raiddp之类的技术。将来随着大容量SATA盘的普及,重构一个raid5的组,需要很长的时间,在重构时剩余硬盘出现问题的概率就高了。raid6和raiddp技术就更有必要了。




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2