RAID 5阵列故障问题
EMC的CX4磁盘柜,15块600G光纤硬盘,Disk 0-4做一个Raid 5 ,Disk 5-13 做另外一个Raid 5,Disk 14 是Hot spare,首先发现Disk 8 故障,此时磁盘阵列正常运行,下订单采购硬盘,在新硬盘未到之前,Disk12也故障,此时阵列系统正常运行。手贱热插拨了一下Disk 8(确认接口和详细型号等,虽然在管理系统也可以查到)。阵列柜进行了同步,当时没在意,想想应该不会有什么问题。次日,操作系统提示无法读写该磁盘分区,重启服务器,提示发现新硬盘,需要初始化,所有数据消失。咨询磁盘阵列柜的售后工程师,让我用新的硬盘替换Disk 12,现在一直处于Equalizing状态,但是硬盘灯不闪烁。请问还有修复的可能性吗?主要数据量有点大。另外,如果硬盘拿去做数据恢复的话,大概有多大的概率可以恢复成功
RAID下面的单个硬盘去恢复,也恢复不出什么东西的 一个阵列的数据和一块单盘,根本没有可比性,不要拿报故障的盘在业务环境下做这种高风险动作。
你这个故障,建议咨询厂商
比较关键的是,Disk12报故障时,disk14是否已经同步完成?
如果当时disk14已经同步完成了,尝试移除掉disk8,disk12,并将disk14强制上线,看能恢复到降级状态不
shaken 发表于 2015-05-11 21:02 static/image/common/back.gif
另外,如果硬盘拿去做数据恢复的话,大概有多大的概率可以恢复成功
你只能将故障盘恢复到发生故障前的状态,但硬盘故障后,你的业务并没有停,因此即使恢复了故障盘,但与阵列的数据已经不同步了,通过恢复故障盘数据来恢复阵列比较难。 回复 1# shaken
raidrebulid工具可以恢复阵列,恢复后的阵列就相当于台式机硬盘上出了坏道,如果文件系统是EXT4一类的,数据基本都能恢复,不过够你折腾一阵了,硬件得有带SAS卡的服务器,还得有很多硬盘槽位插你这9块盘,还得额外加个存储用来倒数据。
开机数据消失是因为你的RAID卡不够聪明,阵列损毁了它就没办法了。
下次记得再做这个操作,一定要关机并且拔掉电源再拔磁盘看型号,关机不拔电源也可能损毁RAID。 bbjmmj 发表于 2015-05-14 21:10 static/image/common/back.gif
回复 1# shaken
请教,当raid5阵列(一共有4块硬盘 没有热备盘)有一个硬盘故障的正确处理流程是什么?请楼主帮梳理。
1、通知用户系统暂停
2、停掉应用
3、主机和存储关机
4、拔掉设备电源
5、拔掉坏的硬盘
6、等多久后可以把新硬盘插进阵列,插入前是否需要停机
如果有热备盘的情况下如何处理,谢谢楼主补充。
回复 7# ylky_2000
出现你说的,我一般是停业务,备份数据,然后直接热插拔更换故障盘。 shaken 发表于 2015-05-15 10:35 static/image/common/back.gif
回复 7# ylky_2000
出现你说的,我一般是停业务,备份数据,然后直接热插拔更换故障盘。
这个处理方法对吗? 回复 4# izee
按照这样说,首先要查一下日志,搞清楚disk14(热备盘) 当前的数据状态到底是同步了disk12 还是 disk8 ,对吧?
另外,热备盘的备份机制到底是怎么样的?查过日志:
1.在热插拔disk 8 前,热备盘是replace了disk 8,disk 8(故障1盘)
2.热插拨disk 8后,disk14 的状态是replacing disk 8 和disk 12
3.在上面两步骤之后,插入新硬盘到disk 12 的位置后,disk 14的状态是replace 了disk 12。
目前热备盘的数据状态到底是怎么样?是否把disk 8 插入一块新盘后就可以进行数据补偿了?
页:
[1]
2