免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2439 | 回复: 0
打印 上一主题 下一主题

[系统管理] 异国蒙古ICNC两台IBM小型机巡检发现exportfs问题处理总结 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-10-15 23:38 |只看该作者 |倒序浏览

蒙古ICNC两台IBM小型机巡检发现问题处理总结
设备信息:
品牌: IBM小型机   
型号: 7029-6C3
序列号(Service Tag): 10B1CEF(智能网SCP1)
                     10B1CAF(智能网SCP2)
主机用途: 智能网

故障信息:
     发现时间: 2008年4月16日
     现象: 两台主机在健康检查过程中,发现hdisk0的状态为missing,rootvg中镜像lv的状态为stale,errpt中发现大量关于hdisk0的disk operation error报错.由于系统处于单块磁盘运行,害怕系统坏掉,于是找来磁带对两台主机的系统进行备份,在备份过程中发现报/mailstore/mp(/dev/lv01)无法读取,通过lsvg –l rootvg命令查看该lv没有在hdisk1上进行镜像,再次进入/mailstore/mp中,使用ls命令发现无法读取其中的文件
     业务影响情况: 由于两台主机都是hdisk0损坏,且/mailstore/mp(/dev/lv01)都没有镜像,导致智能网中的电话不能进行拨打(该目录存放的是铃音文件,媒体服务器读取铃音文件,然后电话在拨打时播放铃音,由于存放这些文件的lv损坏,导致这些文件丢失,因此媒体服务器无法读取铃音,导致电话拨打时不能播放铃音,不能进行通话)
     损坏的备件: 两台主机各一个硬盘(型号为:36G 15K SCSI硬盘)
     故障处理日期: 2008年4月16日------2008年4月17日
故障处理过程(故障处理分两个阶段,第一个阶段恢复业务,第二个阶段更换坏盘[需要备件],由于备件还没有到前方,现场只完成了第一个阶段工作):
Step 1: 在主机上面查看损坏lv(lv01)的属性(属主,属组,读写权限)并记录
        Root:system    777
Step 2: 在主机上面查看损坏lv(lv01)的大小(size)并记录
32个pp
Step 3: 在主机上面查看损坏lv(lv01)的挂载点(mount point)
        /mailstore/mp
Step 4: umount损坏lv(lv01)
        umount /mailstore/mp
Step 5: 删除lv01
        smitty rmfs(注意选择不删除挂载点)
Step 6: 查看lv01是否被成功删除
        lsvg –l rootvg
       看不到lv01即为删除
Step 7: 创建新的lv,注意新lv在rootvg中,大小为32个pp,格式为jfs,数据存放在hdisk1上面
       smitty mklv

Step 8: 查看新的lv的名称,大小,格式,位置是否正确
        #lsvg –l rootvg
        #lspv –l hdisk1
        #lspv –l hdisk0(应该看不到lv01)
Step 9: 给lv01创建文件系统和挂载点
        #smitty crfs
        ->Add a Journaled File System
        ->Add a Journaled File System on a Previously Defined Logical Volume
        ->Add a Standard Journaled File System

Step 10: 挂载lv01至挂载点/mailstore/mp
         #mount /dev/lv01 /mailstore/mp
Step 11: 在/mailstore/mp中上传以前备份的铃音文件,二进制上传
Step 12: 更改/mailstore/mp目录中的子目录和文件的属主和属组,以及文件读取权限
         #chown –R root:system /mailstore/mp/*
         #chmod –R 777 /mailstore/mp/*
Step 13: 由于/mailstore/mp是网络文件系统的server端,该文件系统被共享给媒体服务器使用,于是在媒体服务器上检查该网络文件系统是否可以被认到
         #cd /mnt
         #ls
         看不到挂载点为ip地址的目录,说明没有挂载到
Step 14: 手工在媒体服务器挂载共享的网络文件系统/mailstore/mp
         #cd /mnt
         #mkdir 192.10.200.234
         #mount 192.10.200.234:/mailstore/mp /mnt/192.10.200.234
         报tempout错误,无法挂载
Step 15: 于是在AIX主机上检查网络文件系统服务端情况:
    # stopsrc -g nfs
  0513-044 The biod Subsystem was requested to stop.
  0513-044 The nfsd Subsystem was requested to stop.
  0513-044 The rpc.mountd Subsystem was requested to stop.
  0513-044 The rpc.lockd Subsystem was requested to stop.
0513-044 The rpc.statd Subsystem was requested to stop.
# startsrc -g nfs
0513-059 The biod Subsystem has been started. Subsystem PID is 245894.
0513-059 The nfsd Subsystem has been started. Subsystem PID is 213136.
 0513-059 The rpc.mountd Subsystem has been started. Subsystem PID is 172270.
 0513-059 The nfsrgyd Subsystem has been started. Subsystem PID is 217294.
 0513-059 The gssd Subsystem has been started. Subsystem PID is 221400.
 0513-059 The rpc.lockd Subsystem has been started. Subsystem PID is 217296.
 0513-059 The rpc.statd Subsystem has been started. Subsystem PID is 221402.
      #cat /etc/exports
      /mailstore/mp –
      # showmount -e scp1
    export list for scp1:
    /mailstore/mp (everyone)
      #exportfs
      /mailstore/mp –rw
Step 16: 再次在媒体服务器上挂载,还是报类似的错误,于是再次检查
      #more /etc/hosts
      确保媒体服务器的ip地址在hosts文件中有记录
      #exportfs –a
      重要,最后发现不能挂载的原因是没有执行这个,是NFS更改生效.
Step 17: 再次在媒体服务器上挂载,这次挂载成功
Step 18: 打电话进行测试,发现电话还是打不通
Step 19: 在媒体服务器进行检查
         #cd /mnt/192.10.200.234
         #ls
         发现铃音文件都正常
         #cd ..
         维护人员反馈还少一个与192.10.200.234.pf的文件,并说这个好像是挂载后会自动生成的
Step 20: 认为媒体服务器应该配置了自动挂载网络文件系统,于是,重新启动媒体服务器,等待2分钟后,发现媒体服务器告警消失,登录媒体服务器,发现正常挂载,且自动生成了192.10.200.234.pf文件
Step 21: 维护人员进行拨打测试,测试电话可以正常拨打,对播放的铃音进行抽样测试,没有发现问题
Step 22: 按照上述的方法,在备机上删除旧的lv01,然后新建lv01,最后上传铃音文件,更改文件属主和属组,更新nfs配置使其生效(exportfs -a)
Step 23: 至此第一阶段问题解决
故障处理感想:
在系统进行备份之前,先进行文件文件系统检查,看所有的lv的状态是否都是synced,查看rootvg中的pv状态是否都正常,遇到有问题的pv,需要查看其上的文件系统是否正常,确保其在镜像磁盘上的数据是正常的.如果某个pv有问题,且该pv上面的某个lv没有在其它盘的完整镜像,请先将该lv所使用的文件系统中的数据进行备份(备份可能成功,尝试备份),避免在备份操作系统时,报该lv错误,而之前的数据无法访问.


本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u/8103/showart_1308380.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP