免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3428 | 回复: 0
打印 上一主题 下一主题

[故障求助] 异国巴基斯坦处理ds4300battery过期导致cache关闭问题处理 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-10-15 23:28 |只看该作者 |倒序浏览

故障描述:
    前方反馈电池即将过期,有2块磁盘损坏(去现场之前已经指导更换),磁阵目前读写缓慢。
设备信息:
     品牌:IBM
型号:DS4300
     序列号:13P6480
故障处理过程:
1,           观察磁阵前面板状态灯

发现磁阵Power-on LED为稳定的绿色,General-system-error LED为黄色亮起,所有磁盘的Drive activity LED为绿色常亮或闪烁,没有某个磁盘该指示灯熄灭的情况,所有磁盘的Drive fault LED为熄灭状态。以上现象说明所有磁盘状态都正常,没有磁盘发生故障。但是整个磁阵的某个部件有问题,导致了磁阵的告警灯亮。
2,           检查磁盘阵列背部部件状态指示灯

发现磁阵背部的电源部件,风扇部件的状态都正常。

发现磁阵控制器A的Cache active灯处于熄灭状态,而磁阵控制器B的Cache active灯处于亮起状态。而其它状态指示灯,都正常,没有异常。于是认为导致磁阵告警的原因是两个控制器的Cache状态不一样,需要解决磁阵两个Cache状态不一样的问题。
3,           给笔记本电脑安装最新的storage manager,找一个网线,连接磁阵的管理网口与笔记本的网口,将笔记本的网卡IP地址,设置在和磁阵控制器管理网口同一个网段类,避免IP地址冲突。
4,           打开storage manager程序,第一次打开时,提示搜索,等搜索完毕后,点击要管理的磁阵,此例是ds4300进入。
5,           通过storage manager收集日志
选择AdvancedàTroubleshootingàCollect All Support Data,出现Collect All Support Data对话框,选择文件存放的路径和文件名,然后选择Start开始收集日志,收集完毕后,显示Complete.
6,           对日志内容进行检查:
打开日志压缩文件,选择storageSubsystemProfile对所有部件进行检查,发现电池状态为:

         Battery status:          Near expiration  
         Location:                Controller A     
         Age:                     1,140 days      
         Days until replacement:  29 days         

         Battery status:          Near expiration
         Location:                Controller B     
         Age:                     1,140 days      
         Days until replacement:  29 days      
发现所有LOGICAL DRIVER的cache状态为:

      Read cache:                            Enabled                        
      Write cache:                           Enabled (currently suspended)
         Write cache without batteries:      Disabled                       
         Write cache with mirroring:         Enabled (currently suspended)  
      Flush write cache after (in seconds):  10.00                          
      Dynamic cache read prefetch:           Enabled   
即写缓存暂时关闭。
7,             分析可能造成cache关闭的原因:
针对两个控制器的cache active状态指示灯的状态不一致情况,查看了DS4300的硬件手册,发现造成该灯没有亮的可能原因是CACHE没有用;电池损坏;CACHE损坏。
从收集的日志中查看,cache是再用的,因此cache没有用的原因可以被排除;
从收集的日志中查看,发现两个控制器都识别到了128M的内存,说明内存应该是好的,因此cache损坏的原因也可以排除。
从收集的日志中查看,发现电池报Near expiration,说明是电池即将过期导致磁阵暂时停止了cache的使用,因此需要更换电池。
8,           与软创人员沟通,制定维修方案
经过交流得知,目前国内只发过来一块电池,如果更换一块,另一块不更换,会造成仍旧无法使用,因为两个cache的写数据是镜像的。最后决定,先不换电池,先尝试把电池的时间清零操作(因为电池的状态不是failed,因此感觉还可以用)。最后决定,将电池的时间清零。
9,           将电池的时间清零
点击storage manager中的系统状态图标
在出现的图中,选择batteries,然后选择reset
然后再用网线连接到另一个控制器上,用同样的方法,对另一个控制器上的电池进行reset.
10,       检查电池的状态
发现电池的计数器已经清零,电池的状态变为optimal,说明电池的状态正常了。

         Battery status:          Optimal      
         Location:                Controller A  
         Age:                     0 days        
         Days until replacement:  1,169 days   

         Battery status:          Optimal      
         Location:                Controller B  
         Age:                     0 days        
         Days until replacement:  1,169 days   
11,       检查cache情况
发现cache都是激活的
      Read cache:                            Enabled   
      Write cache:                           Enabled   
         Write cache without batteries:      Disabled  
         Write cache with mirroring:         Enabled   
      Flush write cache after (in seconds):  10.00     
      Dynamic cache read prefetch:           Enabled   
12,       重新收集两个控制器的日志
发现所有部件状态都正常。
13,       对磁阵进行读写测试
发现原来要读写2个多小时的数据,现在几分钟就完成了,说明性能问题解决。

至此磁阵问题解决完毕



本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u/8103/showart_1308374.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP