免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4596 | 回复: 4
打印 上一主题 下一主题

RS/6000小型机故障的基本定位方法 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2005-04-01 15:59 |只看该作者 |倒序浏览
RS/6000小型机故障的基本定位方法\r\n一故障的定义\r\n.弄清楚系统发生了什么问题\r\n.系统现在能做什么?不能做什么?\r\n.故障什么时候发生的?\r\n.有没有做平时不同的操作?\r\n.故障有没有规律?定时还是不定时?发生的频率有多高?\r\n.是一台机器出现故障还是多台机器故障?故障现象是否相同?\r\n.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。\r\n二故障信息的收集\r\n1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。\r\n2)系统故障记录(errorlog)\r\nerrdemon进程在系统启动时自动运行\r\n记录包括硬件、软件及其他*作信息\r\n故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析\r\nerrpt命令的使用(普通用户权限也可使用)\r\n#errpt |more 列出简短出错信息\r\nT(类型): P 永久; T 临时; U 未知 (永久性的错误应引起重视)\r\nC(分类): H 硬件; S 软件; O 用户; U未知\r\n#errpt -d H 列出所有硬件出错信息\r\n#errpt -d S 列出所有软件出错信息\r\n#errpt -aj ERROR_ID 列出详细出错信息\r\n# errpt -aj 0502f666 <--- ERROR_ID用大小写均可\r\n3)控制面板上的LED代码\r\n.8 位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。\r\n.4 位代码,通常是Exxx。\r\n.3 位代码,通常为0yyy,只看后3位。\r\n.8 位和4位代码可查看系统服务手册 (Service Guide)。\r\n3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)。\r\n.闪动的 888, 系统崩溃,硬件或软件原因造成。按reset 键会显示更多内容。\r\n888-102 一般为软件故障(888-102-207 例外)\r\n系统会产生一个dump。\r\n888-102-xxx-0C9 系统正在做dump, 请等待。\r\n888-102-xxx-0C0 系统dump完成,可关电重启。\r\n888-103 或 105 \r\n硬件故障,一般有 SRN 代码及位置代码。\r\n4)SMS (System Management Service) 故障记录\r\n如何进入SMS 菜单\r\n当主控台出现键盘图标后(LED 显示E1F1时)按1键。\r\n选择\"Utilities\"\r\n选择\"Error Log\", 抄下8位故障代码\r\n(在SMS 中还可以更改系统启动顺序表)\r\n5)MAIL \r\n#mail\r\n系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时提醒root。\r\n6)运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。\r\n当发现有硬件故障时应立即使用diag\r\n#diag \r\n>; 选高级诊断(Advance Diagnostic)\r\n>; 选问题诊断(Problem Determination) 或\r\n选系统检查(System Verification)\r\n(选PD 会对系统错误记录进行分析)\r\ndiag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。\r\n对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。\r\n7)其他用于收集系统信息的命令\r\nlsdev -C 系统设备信息\r\n#lsdev -Cc disk\r\nlspv查看物理卷信息\r\n#lspv\r\nlsvg查看卷组信息\r\n#lsvg datavg\r\n#lsvg -l rootvg\r\nlslpp查看文件组信息\r\n#lslpp -L |grep 23100020\r\nlsattr查看设备参数设置\r\n#lsattr -El ent2\r\nlscfg查看VPD信息(Virtual Product Data)\r\n#lscfg -vl ssa1\r\n不同的硬件设备有不同的VPD,所含的格式和信息都不一样。通常备件号和微码版本最有参考价值。注:FRU(Field Replace Unit)才是真正的备件号。\r\n三硬件故障定位方法\r\nIBM小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和SRNs。\r\nCheckpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在 I/O柜的显示面板上一系列信息。\r\nIPL流程\r\n当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:\r\n. Phase 1: Service Processor 的初始化\r\nPhase 1 开始于交流电源接到系统后,直到OK显示在I/O柜上的显示面板上为止。在这个步骤会显示 8xxx 或9xxx checkpoints代码 。\r\n. Phase 2: 由 Service Processor 引导的硬件初始化\r\nPhase 2 开始于按下I/O柜上的白色电源开关。在这个步骤会显示 9xxx checkpoints 。91FF 是最后的代码标志着第三步骤的开始\r\n. Phase 3: 系统固件的初始化\r\n在 Phase 3, 一个系统处理器接管控制并继续初始化系统资源, 在这个步骤会显示 Exxx。E105是最后的代码标志着第四步骤AIX启动的开始。在这个过程中还会显示各种位置码( 位置码代表着系统的每一个部分)\r\n. Phase 4: AIX 启动\r\n当AIX开始启动时,显示面板上的代码为 0xxx ,同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。\r\nError Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。\r\nSRNs (Service request numbers,服务请求码 )当系统运行有错误发现时,SRNs码会以 xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载。\r\n以上所有代码都会有相应的步骤解决。由于代码繁多,请在出现问题后记录下代码,并致电IBM服务热线。\r\n系统的启动顺序:\r\n\r\n系统不能启动\r\n系统停在Stage 1,可能为电源、系统板、CPU、内存等硬件故障。记录故障代码通知IBM工程师。\r\n系统停在Stage 2,可能是启动顺序表(bootlist)损坏或I/O子系统故障。可尝试进入SMS 菜单检查启动顺序表,并修改。若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障。若根本没有SCSI设备可选则链路有问题。\r\n系统停在Stage3,可能是硬盘数据损坏,系统设置文件出错,或I/O子系统故障。\r\n系统停在551,555或557\r\n发生在系统启动的第三阶段 (Stage 3),可能是:\r\n文件系统损坏\r\n文件系统日志(jfslog)损坏\r\nrootvg中有坏硬盘\r\n修复方法\r\n用系统光盘或系统备份带启动(必须与硬盘中的*作系统版本一致)\r\n启动后选择选项3\r\n\"Start Maintenance Mode for System Recovery\"\r\n>; \"Access a Root Volume Group\"\r\n>; \"Access this volume group and start a shell\r\nbefore mounting the file systems\"\r\n格式化文件系统日志(jfslog)\r\n#/usr/sbin/logform /dev/hd8\r\n检查修复文件系统\r\n# fsck -y /dev/hd1 (/home 文件系统)\r\n# fsck -y /dev/hd2 (/usr 文件系统)\r\n# fsck -y /dev/hd3 (/tmp 文件系统)\r\n# fsck -y /dev/hd4 (/ 文件系统)\r\n# fsck -y /dev/hd9var (/var 文件系统)\r\n... ...\r\n用 exit 命令退出,文件系统会自动 mount 起来。\r\n重建bootimage \r\n# lslv -m hd5 找出bootimage所在的硬盘,如hdisk0\r\n# bosboot -ad /dev/hdisk0\r\n# bootlist -m normal /dev/hdisk0 重建启动顺序表。\r\n重启动系统\r\n# shutdown -Fr\r\n如上述步骤不奏效\r\n用系统备份带恢复系统。\r\n如备份带不能恢复,用诊断光盘(Diagnostic CDROM)检查是否坏硬盘。\r\nCDE图形界面挂死\r\nCDE 运行时不要更改网络参数(如:主机名和IP 地址)\r\n更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改。\r\n如CDE 已经挂死\r\n远程 telnet 登录\r\n找出所有dt有关的进程用kill命令杀掉\r\n# ps -ef |grep dt \r\n... ...\r\n# kill PID\r\n检查当前主机名\r\n# hostname \r\ntscf50\r\n查看主机名是否对应有效的IP地址\r\n# netstat -i |grep tscf50 \r\ntr0* 1500 9.185.40 tscf50 506049 0 28247 0 0\r\n更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系。\r\n# smitty tcpip \r\n重新启动CDE界面\r\n# /etc/rc.dt \r\nHACMP环境下可把主机名alias到127.0.0.1上\r\n# cat /etc/hosts\r\n127.0.0.1 loopback localhost tscf50 # loopback (lo0) name/addressbvg\r\n.系统dump\r\n发生在系统崩溃时,AIX会做dump(系统内存的快照)。\r\n此时机器会显示闪动的888 102 xxx 0cx 代码:\r\n0c9 系统dump 进行中。0c9状态可能会维持超过2分钟,\r\n不要关电和按reset, 等待dump做完。\r\n0c0 dump 成功完成,这时可以断电重起。\r\n0c2 手动启动dump 功能\r\n0c4 dump 设备空间不足,只有部分信息保存下来\r\n0c5 不明原因导致dump 失败\r\n一般dump是由于软件出错引起(888-102-207 除外),机器通常可以重启。重启时可能提示用户插入磁带拷贝dump文件,不要选择退出,这样会丢失重要的故障信息。\r\ndump的有关设置\r\n估算系统dump的大小,在系统最繁忙时(内存使用最多)\r\n# sysdumpdev -e\r\n0453-041 Estimated dump size in bytes: 53477376 \r\n# lsps -a\r\nPage Space Physical Volume Volume Group Size %Used Active\r\npaging00 hdisk0 rootvg 480MB 1 yes\r\nhd6 hdisk1 rootvg 544MB 1 yes\r\n当前的设置\r\n#sysdumpdev -l \r\nprimary /dev/hd6 <-- dump的主设备\r\nsecondary /dev/sysdumpnull\r\ncopy directory /var/adm/ras <-- dump拷贝的目录\r\nforced copy flag TRUE\r\nalways allow dump TRUE \r\nhd6应比估算值稍大。\r\n/var/adm/ras 是默认的dump拷贝目录,比较估算值,保证/var文件系统有足够的剩余空间拷贝dump文件。否则机器重起时会提示用户插入磁带。\r\ndump文件名为vmcore.# \r\n对PCI机型如要手动做dump,须把\" always allow dump\" 先设成true。\r\n# sysdumpdev -K\r\ndump打包\r\n# snap -a -o /dev/rmt# 或\r\n# snap -a -c 把/tmp/ibmsupt目录做成一个压缩文件\r\nsnap.tar.Z如果/tmp文件系统空间不够,\r\n可用-d directory 参数指定别的目录代\r\n替/tmp/ibmsupt

论坛徽章:
0
2 [报告]
发表于 2005-04-01 16:09 |只看该作者

RS/6000小型机故障的基本定位方法

不错,一定是费了好多的功夫给译出来的,辛苦了.不过redbook上的内容更详尽些.

论坛徽章:
0
3 [报告]
发表于 2005-04-09 00:47 |只看该作者

RS/6000小型机故障的基本定位方法

好實用的文件!謝謝!

论坛徽章:
0
4 [报告]
发表于 2005-04-13 22:08 |只看该作者

RS/6000小型机故障的基本定位方法

正好在学习AIX,谢了!

论坛徽章:
0
5 [报告]
发表于 2005-04-19 16:52 |只看该作者

RS/6000小型机故障的基本定位方法

不错  初学者来说太有用了
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP