- 论坛徽章:
- 0
|
蒙古ICNC两台IBM小型机巡检发现问题处理总结
设备信息:
品牌: IBM小型机
型号: 7029-6C3
序列号(Service Tag): 10B1CEF(智能网SCP1)
10B1CAF(智能网SCP2)
主机用途: 智能网
故障信息:
发现时间: 2008年4月16日
现象: 两台主机在健康检查过程中,发现hdisk0的状态为missing,rootvg中镜像lv的状态为stale,errpt中发现大量关于hdisk0的disk operation error报错.由于系统处于单块磁盘运行,害怕系统坏掉,于是找来磁带对两台主机的系统进行备份,在备份过程中发现报/mailstore/mp(/dev/lv01)无法读取,通过lsvg –l rootvg命令查看该lv没有在hdisk1上进行镜像,再次进入/mailstore/mp中,使用ls命令发现无法读取其中的文件
业务影响情况: 由于两台主机都是hdisk0损坏,且/mailstore/mp(/dev/lv01)都没有镜像,导致智能网中的电话不能进行拨打(该目录存放的是铃音文件,媒体服务器读取铃音文件,然后电话在拨打时播放铃音,由于存放这些文件的lv损坏,导致这些文件丢失,因此媒体服务器无法读取铃音,导致电话拨打时不能播放铃音,不能进行通话)
损坏的备件: 两台主机各一个硬盘(型号为:36G 15K SCSI硬盘)
故障处理日期: 2008年4月16日------2008年4月17日
故障处理过程(故障处理分两个阶段,第一个阶段恢复业务,第二个阶段更换坏盘[需要备件],由于备件还没有到前方,现场只完成了第一个阶段工作):
Step 1: 在主机上面查看损坏lv(lv01)的属性(属主,属组,读写权限)并记录
Root:system 777
Step 2: 在主机上面查看损坏lv(lv01)的大小(size)并记录
32个pp
Step 3: 在主机上面查看损坏lv(lv01)的挂载点(mount point)
/mailstore/mp
Step 4: umount损坏lv(lv01)
umount /mailstore/mp
Step 5: 删除lv01
smitty rmfs(注意选择不删除挂载点)
Step 6: 查看lv01是否被成功删除
lsvg –l rootvg
看不到lv01即为删除
Step 7: 创建新的lv,注意新lv在rootvg中,大小为32个pp,格式为jfs,数据存放在hdisk1上面
smitty mklv
Step 8: 查看新的lv的名称,大小,格式,位置是否正确
#lsvg –l rootvg
#lspv –l hdisk1
#lspv –l hdisk0(应该看不到lv01)
Step 9: 给lv01创建文件系统和挂载点
#smitty crfs
->Add a Journaled File System
->Add a Journaled File System on a Previously Defined Logical Volume
->Add a Standard Journaled File System
Step 10: 挂载lv01至挂载点/mailstore/mp
#mount /dev/lv01 /mailstore/mp
Step 11: 在/mailstore/mp中上传以前备份的铃音文件,二进制上传
Step 12: 更改/mailstore/mp目录中的子目录和文件的属主和属组,以及文件读取权限
#chown –R root:system /mailstore/mp/*
#chmod –R 777 /mailstore/mp/*
Step 13: 由于/mailstore/mp是网络文件系统的server端,该文件系统被共享给媒体服务器使用,于是在媒体服务器上检查该网络文件系统是否可以被认到
#cd /mnt
#ls
看不到挂载点为ip地址的目录,说明没有挂载到
Step 14: 手工在媒体服务器挂载共享的网络文件系统/mailstore/mp
#cd /mnt
#mkdir 192.10.200.234
#mount 192.10.200.234:/mailstore/mp /mnt/192.10.200.234
报tempout错误,无法挂载
Step 15: 于是在AIX主机上检查网络文件系统服务端情况:
# stopsrc -g nfs
0513-044 The biod Subsystem was requested to stop.
0513-044 The nfsd Subsystem was requested to stop.
0513-044 The rpc.mountd Subsystem was requested to stop.
0513-044 The rpc.lockd Subsystem was requested to stop.
0513-044 The rpc.statd Subsystem was requested to stop.
# startsrc -g nfs
0513-059 The biod Subsystem has been started. Subsystem PID is 245894.
0513-059 The nfsd Subsystem has been started. Subsystem PID is 213136.
0513-059 The rpc.mountd Subsystem has been started. Subsystem PID is 172270.
0513-059 The nfsrgyd Subsystem has been started. Subsystem PID is 217294.
0513-059 The gssd Subsystem has been started. Subsystem PID is 221400.
0513-059 The rpc.lockd Subsystem has been started. Subsystem PID is 217296.
0513-059 The rpc.statd Subsystem has been started. Subsystem PID is 221402.
#cat /etc/exports
/mailstore/mp –
# showmount -e scp1
export list for scp1:
/mailstore/mp (everyone)
#exportfs
/mailstore/mp –rw
Step 16: 再次在媒体服务器上挂载,还是报类似的错误,于是再次检查
#more /etc/hosts
确保媒体服务器的ip地址在hosts文件中有记录
#exportfs –a
重要,最后发现不能挂载的原因是没有执行这个,是NFS更改生效.
Step 17: 再次在媒体服务器上挂载,这次挂载成功
Step 18: 打电话进行测试,发现电话还是打不通
Step 19: 在媒体服务器进行检查
#cd /mnt/192.10.200.234
#ls
发现铃音文件都正常
#cd ..
维护人员反馈还少一个与192.10.200.234.pf的文件,并说这个好像是挂载后会自动生成的
Step 20: 认为媒体服务器应该配置了自动挂载网络文件系统,于是,重新启动媒体服务器,等待2分钟后,发现媒体服务器告警消失,登录媒体服务器,发现正常挂载,且自动生成了192.10.200.234.pf文件
Step 21: 维护人员进行拨打测试,测试电话可以正常拨打,对播放的铃音进行抽样测试,没有发现问题
Step 22: 按照上述的方法,在备机上删除旧的lv01,然后新建lv01,最后上传铃音文件,更改文件属主和属组,更新nfs配置使其生效(exportfs -a)
Step 23: 至此第一阶段问题解决
故障处理感想:
在系统进行备份之前,先进行文件文件系统检查,看所有的lv的状态是否都是synced,查看rootvg中的pv状态是否都正常,遇到有问题的pv,需要查看其上的文件系统是否正常,确保其在镜像磁盘上的数据是正常的.如果某个pv有问题,且该pv上面的某个lv没有在其它盘的完整镜像,请先将该lv所使用的文件系统中的数据进行备份(备份可能成功,尝试备份),避免在备份操作系统时,报该lv错误,而之前的数据无法访问.
本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u/8103/showart_1308380.html |
|