Chinaunix

标题: Drive is not responding,求高手帮忙 [打印本页]

作者: rock2v2    时间: 2013-12-11 10:48
标题: Drive is not responding,求高手帮忙
Its current value is CRITICAL(5).



Event data from monitor:

Event Time..........: Sun Dec  8 05:46:54 2013
Severity............: CRITICAL
Monitor.............: disk_em
Event #.............: 3
System..............: tddb1

Summary:
     Disk at hardware path 0/4/1/0.0.0.0.0 : Drive is not responding.


Description of Error:

     As part of the polling functionality, the monitor periodically requests
     data from the device. The monitor's request of Test Unit Ready command
     failed.

Probable Cause / Recommended Action:

     The I/O request that the monitor made to this device failed because the
     device timed-out. Check cables, power supply, ensure the drive is power
     ON, and if needed contact your HP support representative.

Additional Event Data:
     System IP Address...: 10.21.48.11
     Event Id............: 0x52a3974e00000000
     Monitor Version.....: B.01.01
     Event Class.........: I/O
     Client Configuration File...........:
     /var/stm/config/tools/monitor/default_disk_em.clcfg
     Client Configuration File Version...: A.01.00
          Qualification criteria met.
               Number of events..: 1
     Associated OS error log entry id(s):
          None
     Additional System Data:
          System Model Number.............: ia64 hp server rx6600
          OS Version......................: B.11.23
          STM Version.....................: C.60.00
          EMS Version.....................: A.04.20
     Latest information on this event:
          http://docs.hp.com/hpux/content/hardware/ems/disk_em.htm#3

v-v-v-v-v-v-v-v-v-v-v-v-v    D  E  T  A  I  L  S    v-v-v-v-v-v-v-v-v-v-v-v-



Component Data:
     Physical Device Path...: 0/4/1/0.0.0.0.0
     Device Class...........: Disk
     Inquiry Vendor ID......: HP
     Inquiry Product ID.....: DG146BB976
     Firmware Version.......: HPDC
     Serial Number..........: 3NM564DJ000098374FTU

Product/Device Identification Information:

     Logger ID.........: disc30; sdisk
     Product Identifier: Disk
     Product Qualifier.: HP      DG146BB976
     SCSI Target ID....: 0x00
     SCSI LUN..........: 0x00

SCSI Command Data Block:  (not present in log record)

Hardware Status:  (not present in log record).

SCSI Sense Data: (not present in log record)


>---------- End Event Monitoring Service Event Notification ----------<
#




这个服务器没有做镜像,现在报了这个故障机器还在运行,指示灯也都正常,但是硬盘有不停似乎在重启的声音,业务也在运行,现在能不能用磁带机做这快盘的备份,会不会突然down掉影响业务,求高手解答啊!
作者: lbseraph    时间: 2013-12-11 10:48
1. 如果0/4/1/0.0.0.0.0在vg00上的话,先dd全盘读一下确认是否有问题,有的话最好提前更换;
2. 如果6月份那次备份之后没做过配置更改的话,可以手工切换业务到备机上(没法保证现在切换过程中是否有问题,当初在配置上线之前的时候一般都需要做测试的,你担心的话可以抽一个业务不忙的时候来做),然后更换硬盘,重新回灌6月份的系统数据试试。之后确认集群配置等相应文件都还在的话,抽时间再切换回来看看~
作者: congshuaiok    时间: 2013-12-11 12:54
你要确定这快盘上有没有数据,如果有数据,赶紧备份,没有数据,直接把它从VG里T出来。

假如盘上有数据,但磁盘又读不了,磁带备份可能会报错。
作者: rock2v2    时间: 2013-12-11 14:12
怎么从vg踢出去,这个服务器上装的系统hpux就在这块盘,数据都在磁盘阵列上,6月份磁带备份过一次系统回复 2# congshuaiok


   
作者: rock2v2    时间: 2013-12-11 14:56
现在oracle企业管理器进不去,但能用命令行进回复 2# congshuaiok


   
作者: rock2v2    时间: 2013-12-11 15:15
这台服务器有备机,可以手工切换,数据库在主备机上,数据在盘阵上,不知道切的过程会不会出问题导致切换失败回复 2# congshuaiok


   
作者: lbseraph    时间: 2013-12-11 16:17
rock2v2 发表于 2013-12-11 14:12
怎么从vg踢出去,这个服务器上装的系统hpux就在这块盘,数据都在磁盘阵列上,6月份磁带备份过一次系统回复  ...


没有mirror的话,系统盘你没法踢~如果dd读还没什么问题的话,可以尝试做个LVM mirror然后更换掉这个硬盘,这样影响是最小的~
作者: lgatuk    时间: 2013-12-12 08:24
lbseraph 发表于 2013-12-11 10:48
1. 如果0/4/1/0.0.0.0.0在vg00上的话,先dd全盘读一下确认是否有问题,有的话最好提前更换;
2. 如果6月份 ...


切业务能在线切?不都得停业务吗
作者: rock2v2    时间: 2013-12-12 15:51
状态灯一直没亮红灯,后来重启才亮的面板上的一个电脑里一个电的符号的标识,应该是硬盘接口的部位问题,后来换了个槽位就恢复正常了回复 2# lbseraph


   
作者: lbseraph    时间: 2013-12-12 19:15
不着急的话就抽另外的时间来更换硬盘背板了,这个需要停机时间了~
作者: lbseraph    时间: 2013-12-12 19:16
lgatuk 发表于 2013-12-12 08:24
切业务能在线切?不都得停业务吗


切包的话肯定会有段时间业务中断的~
作者: rock2v2    时间: 2013-12-13 09:30
谢谢各位,已经基本正常了,估计机器老化了,重插硬盘正常了,dd也正常




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2