免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 930 | 回复: 0
打印 上一主题 下一主题

RAID5阵列中两块磁盘告警后的处理步骤 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-11-07 21:05 |只看该作者 |倒序浏览

RAID5阵列中两块磁盘告警后的处理步骤
一、问题描述
RAID5中两块或两块以上硬盘告警的几率是非常低,但并不代表这种情况不会发生。最常见的情况是一块硬盘先告警,在没有发现或未及时更换之前,又一块硬盘出现告警,导致RAID5阵列离线,数据无法读取;在这种情况下,如何正确处理才能尽可能恢复数据?
二、过程分析
首先,两种错误可能导致硬盘告警:逻辑错误、物理错误;如果是物理错误的话,数据恢复的可能性不大;如果是逻辑错误的话,还有可能恢复数据。
其次,一定要根据日志或者其他信息确定哪块盘先出问题、哪块盘后出问题,因为先后出问题的两块盘上的数据是不一样的,后出问题的硬盘上的数据才是最新鲜的,与RAID5中其他硬盘的数据组合后才是完整,并且可以正常使用的。
最后,两块盘告警的情况下,正确的处理方法是先尝试强行online后坏的硬盘并恢复数据;如果尝试强行online后坏的硬盘失败,那么试着强行online先坏的硬盘并恢复数据;如果两块盘都无法强行online的话,数据将全部丢失。
三、解决办法
本文以AIX环境下的处理过程为例说明此类问题的处理方法,其他环境下的处理方法类似:
环境:IBM P630 + AIX + scsi raid卡 + 4块18G disk作raid5(no hotspare)
问题:一块硬盘先告警,未及时更换之前,又一块硬盘出现告警,导致RAID5阵列离线,卷组离线,数据无法读取。
#lspv
hdisk0         000b85cdf79f0ec5    rootvg
lspv输出只有hdisk0,而做完RAID5后的hdisk1消失。
#lsdev -Cc disk
hdisk0 Available 10-60-00-0,0 16 Bit LVD SCSI Disk Drive
hdisk1 Defined 20-60-00-0,0 SCSI Disk Array RAID 5
#varyonvg datavg[操作失败,datavg不能varyon]
#diag      [运行出现下面的错误]
The Service Request Number(s)/Probable Cause(s)
66D-111: The disk has been failed by the adapter.
FRU: n/a CH/ID 2 B
Physical Disk
66D-111: The disk has been failed by the adapter.
FRU: n/a CH/ID 2 C
Physical Disk
硬盘2B、2C处于failed状态,根据系统日志确定Channel 2 ID C先出现问题,Channel 2 ID B后出现问题。

操作步骤:
1、#smitty pdam
          List PCI SCSI Disk Arrays
          Create a PCI SCSI Disk Array
          Delete a PCI SCSI Disk Array
          Configure a Defined PCI SCSI Disk Array
          Change/Show a PCI SCSI Disk Array
          Reconstruct a PCI SCSI Disk Array
          Revive a FAILED Drive in a PCI SCSI Disk Array
          Fail a Drive in a PCI SCSI Disk Array
          Change/Show PCI SCSI RAID Drive Status
          Perform Consistency Check
          Display Status of Adapter Write Cache
          Recovery Options
选择:List PCI SCSI Disk Arrays        
mscraid0 Available 20-60 PCI 4-Channel Ultra3 SCSI RAID Adapter
hdisk1  Defined Raid  5 20-60-00-0,0 52072 MB Status DEAD
hdisk1  2A Channel 2 ID A  ONLINE
hdisk1  2B Channel 2 ID B  FAILED DRIVE
hdisk1  2C Channel 2 ID C  FAILED DRIVE
hdisk1  2D Channel 2 ID D  ONLINE
2、#smitty pdam
选择:Revive a FAILED Drive in a PCI SCSI Disk Array
2B Channel 2 ID B  FAILED DRIVE
2C Channel 2 ID C  FAILED DRIVE
选择:2B Channel 2 ID B  FAILED DRIVE
        PCI SCSI Disk Array             hdisk1
        Channel ID                      2B
会车后出现下面的提示:Continuing may delete information you may want to keep.  This is your last chance to stop before continuing. Press Enter to continue. Press Cancel to return to the application
敲会车键继续[确认命令成功完成,硬盘强行online成功]
3、通过List PCI SCSI Disk Arrays查看RAID的状态出现:
scraid0 Available 20-60 PCI 4-Channel Ultra3 SCSI RAID Adapter        
hdisk1  Defined Raid  5 20-60-00-0,0 52072 MB Status DEGRADED
hdisk1  2A Channel 2 ID A  ONLINE
hdisk1  2B Channel 2 ID B  ONLINE
hdisk1  2C Channel 2 ID C  FAILED DRIVE
hdisk1  2D Channel 2 ID D  ONLINE
注意:2B已经是online
4、执行diag命令进行诊断,结果显示入下
        The Service Request Number(s)/Probable Cause(s)
        causes are listed in descending order of probability):
        66D-111: The disk has been failed by the adapter.
        FRU: n/a         CH/ID 2C
        Physical Disk
        
5、#varyonvg datavg
   #mount /data
datavg varyon 成功,文件系统mount成功;
6、更换2C Channel上的硬盘,RAID5进行数据重建,数据重建完毕后,建议更换2B Channel上的硬盘,RAID5再次进行数据重建;
7、#smitty pdam
选择:List PCI SCSI Disk Arrays结果如下:
        hdisk1  Available Raid  5 20-60-00-0,0 52072 MB Status OPTIMAL
        hdisk1  2A Channel 2 ID A  ONLINE - 17357Meg
        hdisk1  2B Channel 2 ID B  ONLINE - 17357Meg
        hdisk1  2C Channel 2 ID C  ONLINE - 17357Meg
        hdisk1  2D Channel 2 ID D  ONLINE - 17357Meg
8、数据恢复完毕。


本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u/19135/showart_416964.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP