论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2010-06-02 00:58 |只看该作者 |倒序浏览

IBM P系列小型机日常维护/故障定位/故障排除\r\n第一章、机房环境及物理检查\r\n\r\n\r\n一、机房内环境要求\r\n1. 温度与湿度：\r\n最佳工作温度：20-25摄氏度\r\n\r\n极限工作温度：10-40摄氏度 \r\n\r\n 湿度: 8-80%(在23摄氏度条件下)\r\n\r\n如果不是工作在最佳温度，请注意改善机房环境\r\n\r\n2. 同时机房要保证清洁.\r\n机房应保持清洁，若空气灰尘过多，很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。\r\n\r\n二、电源要求\r\n电压: 要求电压稳定, 尖峰电压会损坏设备\r\n\r\n电压范围: 220V +/- 10%, 即200-240V, 50-60Hz\r\n\r\n电源功率: 视机器类型和系统配置而定\r\n\r\n电源线 : 标准的零, 地, 火三相电, 其中零, 地电压不得超过3.0V.\r\n\r\n电源接驳: 用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS，并建议配备发电机组;对于冗于电源的接入,建议采用两路单独输入.\r\n\r\n\r\n\r\n三、硬件检查\r\n检查服务器、磁阵的安装、电源线、7133和主机接线符合要求。\r\n\r\n\r\n\r\n服务器状态检查：\r\n\r\n1. 当服务器处于启动和正常工作状态时，其前面板上的液晶显示屏上应无信息显示。\r\n2. 当液晶显示器上出现带数字和字母的信息时，说明有硬件告警。可以通过查询相关机型的Service Guide查到相应告警原因，情况严重的，则要立即通知IBM技术专家进行问题排查。\r\n\r\n\r\n\r\n7133状态检查：\r\n\r\n磁阵前面板上有7133机柜的状态灯（与电源灯并排）和各硬盘的状态灯（一排小灯，与各硬盘位置一一对应）。\r\n\r\n1. 当机柜的状态灯出现橙黄色时，说明有硬件告警，此时要检查磁柜的电源、接线、硬盘等。如果有硬件故障则立即进行更换和更正，如果查不出具体问题，则需要联系相关专家进一步诊断。\r\n\r\n2. 当硬盘工作正常时，与各硬盘对应的硬盘灯会呈绿色，如无读写，则绿灯一直亮，如该硬盘有读写操作，则绿灯会不规则闪烁，当硬盘损坏时或SSA环路出现问题时，则硬盘状态灯将熄灭，或者呈闪烁状态：以1～3秒的频率有规律地、不停地闪烁\r\n\r\n第二章、系统日常维护流程\r\n\r\n\r\n\r\n\r\n2.1系统启动\r\n系统启动正常顺序如下：\r\n\r\n首先对外设（磁盘阵列、磁带库等）加电。\r\n\r\n待所有外设加电自检完成后，主机加电正常起机。主机加电后,系统进行自检,在液晶显示屏显示”ok”后,才能按白色POWER键起机.\r\n\r\n启动主机HACMP，启动后可用命令 tail -f /tmp/hacmp.out 来检查启动情况，在HACMP未完全启动前不要进行下一步。\r\n\r\n检查服务器的网络地址，路由表(可用netstat -i , netstat -rn 等)，检查文件系统，逻辑卷(可用 mount , lsvg -o 等)。\r\n\r\n检查各项应用是否工作正常。\r\n\r\n\r\n\r\n2.2系统关闭\r\n停止HACMP ( smitty clstop)。\r\n\r\n查看HACMP的状态，检查服务器的网络地址，路由表(可用netstat -i , netstat -rn 等)，检查文件系统，逻辑卷(可用 mount , lsvg -o 等)。在HACMP未完全停止前不要进行下一步。\r\n\r\n关闭主机 (shutdown –F)。重启系统可以使用：shutdown -Fr\r\n\r\n如有必要的话，按磁盘阵列前方的白色按钮关闭磁盘阵列。\r\n\r\n\r\n\r\n\r\n\r\n2.3查看系统的错误记录\r\n在系统运行时，一些系统错误会记录在errlog 中，其中有些错误还会在终端上显示。检查错误日志可用以下命令：\r\n\r\n\r\n\r\n#errpt|more 查看系统所有的记录\r\n\r\n\r\n\r\nIDENTIFIER TIMESTAM P T C RESOURCE_NAME DESCRIPTION\r\n\r\nE85C5C4C 0426104399 P S CFGLFT SOFTWARE PROGRAM ERROR\r\n\r\n2BFA76F6 0426104099 T S SYSPROC SYSTEM SHUTDOWN BY USER\r\n\r\n9D4CF6E7 0426104399 T O errdemon ERROR LOGGING TURNED ON\r\n\r\n1E2AC07E 0426103999 T O errdemon ERROR LOGGING TURNED OFF\r\n\r\n1E5EER4T 0423132999 T O clstrmgr OPERATOR NOTIFICATION \r\n\r\n\r\n\r\n其中\r\n\r\n\r\n\r\nIDENTIFIER 为错误编号，当需要检查详细信息时常会用到。\r\n\r\n\r\n\r\nTIME STAMP 为时间标签，它记录的是出错时间，其格式:月月日日时时分分年年\r\n\r\n\r\n\r\nT 为Type , 它记录的是错误类型\r\n\r\nP ：为永久错误，需引起注意\r\n\r\n T ：为临时错误。\r\n\r\n\r\n\r\nC 为Class, 它记录的是错误种类，如\r\n\r\nH : Hardware\r\n\r\nS : Software\r\n\r\nO : Errloger command messages\r\n\r\nU : undetermined\r\n\r\n\r\n\r\nRESOURCE_NAME 为错误来源\r\n\r\n\r\n\r\nDESCRIPTION 为错误描述\r\n\r\n\r\n\r\n#errpt -aj <IDENTIFIER> 查看系统详细记录内容\r\n\r\n\r\n\r\n其中IDENTIFIER为错误编号，如 #errpt -aj 0426104399\r\n\r\n\r\n\r\n#errpt -dH 查看系统所有的硬件出错记录\r\n\r\n \r\n\r\n\r\n\r\n2.4系统与数据备份\r\n有效及时的系统备份是系统管理的非常重要的一环。当系统出现故障时，特别是文件系统被严重损坏或硬盘损坏时，常需要使用系统备份来恢复系统。在以下情况下应做系统备份：\r\n\r\n\r\n\r\n1、新装机。在硬件及系统软件安装完成后，应做系统备份。\r\n\r\n2、软件改动。系统软件或应用软件有改动时，应做系统备份。\r\n\r\n3、定期备份。对系统进行定期备份，最好每两或三个月做一次备份\r\n\r\n备份注意事项：\r\n\r\n进行系统备份无须停止业务，业务可以继续进行。\r\n\r\n建议客户进行定期的系统备份（使用命令smitty mksysb）。客户也可根据需要利用SMIT对系统的特定的VG或FS进行备份。\r\n\r\nsmitty mksysb只备份rootvg中mount起来的文件系统，其它文件系统或数据并没有做备份，所以数据备份需要另外完成（建议客户使用TAR格式）\r\n\r\n在条件允许的情况下，最好有一盘以上备份带，以防止磁带损坏。 \r\n\r\n系统备份过程中有时候会提示有些/tmp目录下的文件无法备份，显示如下：\r\n\r\n\r\n\r\nCreating list of files to back up...\r\n\r\nBacking up 34025 files..............................\r\n\r\n1694 of 34025 files (4%)..............................\r\n\r\n2733 of 34025 files (8%).........backup: 0511-449 An error occurred accessing ./\r\n\r\ntmp/sh34736.1: A file or directory in the path name does not exist.\r\n\r\nbackup: 0511-449 An error occurred accessing ./tmp/sh34736.2: A file or director\r\n\r\ny in the path name does not exist.\r\n\r\nbackup: 0511-449 An error occurred accessing ./tmp/sh34736.3: A file or director\r\n\r\ny in the path name does not exist.\r\n\r\n.....................\r\n\r\n15458 of 34025 files (45%)..............................\r\n\r\n31920 of 34025 files (93%)...........\r\n\r\n0512-003 mksysb may not have been able to archive some files.\r\n\r\nThe messages displayed on the Standard Error contained additional\r\n\r\ninformation.\r\n\r\n\r\n\r\n这是正常现象，备份成功。\r\n\r\n\r\n\r\n\r\n\r\n2.5系统恢复\r\n \r\n\r\n当系统发生比较严重的故障以致采取一般性维护手段不能在短期内恢复原系统，在与客户进行蹉商后，可将最近一次的系统备份带倒回机器内以全面恢复系统到最近一次做备份时的系统环境，然后可将当日的数据备份再倒回系统内。至此，系统可恢复正常运行。此后，客户应当与IBM工程师再进行整个事件的全面分析与回顾，以期找到故障发生的原因，并采取相应措施以杜绝类似事件再次发生。\r\n\r\n\r\n\r\n2.6 DUMP\r\n\r\n\r\n当系统运行出现软件故障导致系统down机时，机器的液晶显示器会出现 888 102 xxx 0c0 (xxx可能为700或其它)，AIX常会将当时系统的运行情况记录下来，这就是DUMP。\r\n\r\n\r\n\r\n当DUMP产生后，请将磁带放入磁带机，用命令 # snap -a -o /dev/rmt0将DUMP 文件拷贝到磁带设备/dev/rmt0 中。注明磁带机的block size, DUMP产生的日期和机器的型号及序列号。同时，请用# errpt -a >/tmp/err.log 将errorlog 记在/tmp/err.log中，并将 /tmp/err.log 和 /tmp/hacmp.* 拷贝到软盘或磁带上。将磁带和软盘交给IBM工程师。\r\n\r\n\r\n\r\n2.7日常检查服务器状态的项目及其相关命令\r\n1 运行lsdev 命令配以各种参数，所列各种设备状态都应为Available。\r\n\r\n#lsdev –C –H –S a 列出系统中可用设备。\r\n\r\n#lsdev –Cc processor 列出系统中的所有CPU。\r\n\r\n#lsdev –Cc memory 列出系统中的所有内存。\r\n\r\n#lsdev –Cc disk 列出系统中的所有硬盘。\r\n\r\n#lsdev -Cc adapter | grep ent 列出系统中的所有网卡\r\n\r\n#lsdev -Cc adapter | grep scsi 列出系统中的所有SCSI卡。\r\n\r\n#lsdev -Cc adapter | grep ssa 列出系统中的所有SSA卡。\r\n\r\n\r\n\r\n2 lspv命令\r\n\r\n#lspv 显示系统中可用的PV。\r\n\r\n#lspv hdiskn 显示hdiskn的具体信息。\r\n\r\n#lsdev –Cc pdisk 显示磁盘阵列的硬盘的具体信息。\r\n\r\n对SSA硬盘的检测：在对主机进行工作之前可以先把磁盘阵列上电，等主机完全启动后，登录到主机上，运行以下命令“ lsdev –Cc pdisk “,应该可以看到所有SSA硬盘，并且状态应为Available.。\r\n\r\n\r\n\r\n3 lsattr命令\r\n\r\n# lsattr –E –l mem0 列出系统中内存mem0的大小，本项目中内存有4GB。\r\n\r\n\r\n\r\n4 lsvg命令\r\n\r\n#lsvg 列出系统中所有的vg。\r\n\r\n#lsvg rootvg 列出rootvg的详细信息。\r\n\r\n#lsvg –o 列出激活的vg\r\n\r\n\r\n\r\n5 oslevel命令\r\n\r\n#oslevel 显示操作系统版本信息。\r\n\r\n\r\n\r\n6 netstat命令\r\n\r\n#netstat –in 显示系统中各网卡的配置。可查看网卡的IP配置好了没有。\r\n\r\n\r\n\r\n7 通过运行# diag 命令运行硬件诊断程序检测主机内所有硬件，检测结果为 “No trouble found ”显示各部分工作正常。\r\n\r\n \r\n\r\n8 使用#diag命令（选择：Task Selection-> SSA Service Aids）对SSA硬盘链路连接的校验，可以通过SSA 工具里的Link Verification 来检测。如有必要，可以用 Certify Disk运行硬盘诊断部分进行硬盘的表面分析测试，由1% 至100%，检测结果显示主机内置硬盘的所有扇区均读写正常。\r\n\r\n\r\n\r\n9 lsps –a 查看PAGING SPACE的使用情况，如果使用率超过70%，就需要采取措施。\r\n\r\n\r\n\r\n10 lsvg –o | lsvg –il | grep –i stale查看有无stale的lv，如果输入该命令之后有输出结果，就需要采取措施\r\n\r\n\r\n\r\n11 有否发给root用户的错误报告(mail)。\r\n\r\n\r\n\r\n12 检查双机状态：lssrc –g cluster 检查ha三个工作进程是否激活，/usr/sbin/cluster/clstat –a检查双机状态是否up，并检查hacmp.out日志，看是否有异常信息。\r\n\r\n\r\n\r\n13 用vmstat, topas，sar 命令检查系统性能，检查cpu\\memoyr\\IO ，是否存在性能瓶颈。\r\n\r\n\r\n\r\n14 检查能否顺利进入CDE界面，如果不能进入的话，要检查/etc/hosts表中有否错误的项目。\r\n\r\n\r\n\r\n15 用smitty ssaraid 查看磁盘阵列RAID盘的状态是否是Good。如果是degrade或其他状态表示RAID盘出现问题了\r\n\r\n\r\n\r\n16 用sysdumpdev –l 查看系统的DUMP设置是否正常。\r\n\r\n\r\n\r\n17 用instfix –ik | grep ML当前操作系统补丁版本补丁程序(PTF)是否满足稳定运行的需要。一般要求433操作系统补丁要打到10以上，5.1操作系统补丁要打到5以上\r\n\r\n\r\n\r\n18 使用df –kP查看磁盘空间占用率，请确保以下文件系统的占用率高于80%立即上报： \r\n\r\n/ /var /usr /home /tmp /zxindata/zxinbak，其余文件系统的占用率高于95%立即上报\r\n\r\n也可以到各文件系统下使用组合命令：find . –size +2048 –o ctime 1 –exec ls –l {} \\; 查出大于1M或一天之内修改过的文件。\r\nIBM P系列小型机日常维护/故障定位/故障排除\r\n第一章、机房环境及物理检查\r\n\r\n\r\n一、机房内环境要求\r\n1. 温度与湿度：\r\n最佳工作温度：20-25摄氏度\r\n\r\n极限工作温度：10-40摄氏度 \r\n\r\n 湿度: 8-80%(在23摄氏度条件下)\r\n\r\n如果不是工作在最佳温度，请注意改善机房环境\r\n\r\n2. 同时机房要保证清洁.\r\n机房应保持清洁，若空气灰尘过多，很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。\r\n\r\n二、电源要求\r\n电压: 要求电压稳定, 尖峰电压会损坏设备\r\n\r\n电压范围: 220V +/- 10%, 即200-240V, 50-60Hz\r\n\r\n电源功率: 视机器类型和系统配置而定\r\n\r\n电源线 : 标准的零, 地, 火三相电, 其中零, 地电压不得超过3.0V.\r\n\r\n电源接驳: 用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS，并建议配备发电机组;对于冗于电源的接入,建议采用两路单独输入.\r\n\r\n\r\n\r\n三、硬件检查\r\n检查服务器、磁阵的安装、电源线、7133和主机接线符合要求。\r\n\r\n\r\n\r\n服务器状态检查：\r\n\r\n1. 当服务器处于启动和正常工作状态时，其前面板上的液晶显示屏上应无信息显示。\r\n2. 当液晶显示器上出现带数字和字母的信息时，说明有硬件告警。可以通过查询相关机型的Service Guide查到相应告警原因，情况严重的，则要立即通知IBM技术专家进行问题排查。\r\n\r\n\r\n\r\n7133状态检查：\r\n\r\n磁阵前面板上有7133机柜的状态灯（与电源灯并排）和各硬盘的状态灯（一排小灯，与各硬盘位置一一对应）。\r\n\r\n1. 当机柜的状态灯出现橙黄色时，说明有硬件告警，此时要检查磁柜的电源、接线、硬盘等。如果有硬件故障则立即进行更换和更正，如果查不出具体问题，则需要联系相关专家进一步诊断。\r\n\r\n2. 当硬盘工作正常时，与各硬盘对应的硬盘灯会呈绿色，如无读写，则绿灯一直亮，如该硬盘有读写操作，则绿灯会不规则闪烁，当硬盘损坏时或SSA环路出现问题时，则硬盘状态灯将熄灭，或者呈闪烁状态：以1～3秒的频率有规律地、不停地闪烁\r\n\r\n第二章、系统日常维护流程\r\n\r\n\r\n\r\n\r\n2.1系统启动\r\n系统启动正常顺序如下：\r\n\r\n首先对外设（磁盘阵列、磁带库等）加电。\r\n\r\n待所有外设加电自检完成后，主机加电正常起机。主机加电后,系统进行自检,在液晶显示屏显示”ok”后,才能按白色POWER键起机.\r\n\r\n启动主机HACMP，启动后可用命令 tail -f /tmp/hacmp.out 来检查启动情况，在HACMP未完全启动前不要进行下一步。\r\n\r\n检查服务器的网络地址，路由表(可用netstat -i , netstat -rn 等)，检查文件系统，逻辑卷(可用 mount , lsvg -o 等)。\r\n\r\n检查各项应用是否工作正常。\r\n\r\n\r\n\r\n2.2系统关闭\r\n停止HACMP ( smitty clstop)。\r\n\r\n查看HACMP的状态，检查服务器的网络地址，路由表(可用netstat -i , netstat -rn 等)，检查文件系统，逻辑卷(可用 mount , lsvg -o 等)。在HACMP未完全停止前不要进行下一步。\r\n\r\n关闭主机 (shutdown –F)。重启系统可以使用：shutdown -Fr\r\n\r\n如有必要的话，按磁盘阵列前方的白色按钮关闭磁盘阵列。\r\n\r\n\r\n\r\n\r\n\r\n2.3查看系统的错误记录\r\n在系统运行时，一些系统错误会记录在errlog 中，其中有些错误还会在终端上显示。检查错误日志可用以下命令：\r\n\r\n\r\n\r\n#errpt|more 查看系统所有的记录\r\n\r\n\r\n\r\nIDENTIFIER TIMESTAM P T C RESOURCE_NAME DESCRIPTION\r\n\r\nE85C5C4C 0426104399 P S CFGLFT SOFTWARE PROGRAM ERROR\r\n\r\n2BFA76F6 0426104099 T S SYSPROC SYSTEM SHUTDOWN BY USER\r\n\r\n9D4CF6E7 0426104399 T O errdemon ERROR LOGGING TURNED ON\r\n\r\n1E2AC07E 0426103999 T O errdemon ERROR LOGGING TURNED OFF\r\n\r\n1E5EER4T 0423132999 T O clstrmgr OPERATOR NOTIFICATION \r\n\r\n\r\n\r\n其中\r\n\r\n\r\n\r\nIDENTIFIER 为错误编号，当需要检查详细信息时常会用到。\r\n\r\n\r\n\r\nTIME STAMP 为时间标签，它记录的是出错时间，其格式:月月日日时时分分年年\r\n\r\n\r\n\r\nT 为Type , 它记录的是错误类型\r\n\r\nP ：为永久错误，需引起注意\r\n\r\n T ：为临时错误。\r\n\r\n\r\n\r\nC 为Class, 它记录的是错误种类，如\r\n\r\nH : Hardware\r\n\r\nS : Software\r\n\r\nO : Errloger command messages\r\n\r\nU : undetermined\r\n\r\n\r\n\r\nRESOURCE_NAME 为错误来源\r\n\r\n\r\n\r\nDESCRIPTION 为错误描述\r\n\r\n\r\n\r\n#errpt -aj <IDENTIFIER> 查看系统详细记录内容\r\n\r\n\r\n\r\n其中IDENTIFIER为错误编号，如 #errpt -aj 0426104399\r\n\r\n\r\n\r\n#errpt -dH 查看系统所有的硬件出错记录\r\n\r\n \r\n\r\n\r\n\r\n2.4系统与数据备份\r\n有效及时的系统备份是系统管理的非常重要的一环。当系统出现故障时，特别是文件系统被严重损坏或硬盘损坏时，常需要使用系统备份来恢复系统。在以下情况下应做系统备份：\r\n\r\n\r\n\r\n1、新装机。在硬件及系统软件安装完成后，应做系统备份。\r\n\r\n2、软件改动。系统软件或应用软件有改动时，应做系统备份。\r\n\r\n3、定期备份。对系统进行定期备份，最好每两或三个月做一次备份\r\n\r\n备份注意事项：\r\n\r\n进行系统备份无须停止业务，业务可以继续进行。\r\n\r\n建议客户进行定期的系统备份（使用命令smitty mksysb）。客户也可根据需要利用SMIT对系统的特定的VG或FS进行备份。\r\n\r\nsmitty mksysb只备份rootvg中mount起来的文件系统，其它文件系统或数据并没有做备份，所以数据备份需要另外完成（建议客户使用TAR格式）\r\n\r\n在条件允许的情况下，最好有一盘以上备份带，以防止磁带损坏。 \r\n\r\n系统备份过程中有时候会提示有些/tmp目录下的文件无法备份，显示如下：\r\n\r\n\r\n\r\nCreating list of files to back up...\r\n\r\nBacking up 34025 files..............................\r\n\r\n1694 of 34025 files (4%)..............................\r\n\r\n2733 of 34025 files (8%).........backup: 0511-449 An error occurred accessing ./\r\n\r\ntmp/sh34736.1: A file or directory in the path name does not exist.\r\n\r\nbackup: 0511-449 An error occurred accessing ./tmp/sh34736.2: A file or director\r\n\r\ny in the path name does not exist.\r\n\r\nbackup: 0511-449 An error occurred accessing ./tmp/sh34736.3: A file or director\r\n\r\ny in the path name does not exist.\r\n\r\n.....................\r\n\r\n15458 of 34025 files (45%)..............................\r\n\r\n31920 of 34025 files (93%)...........\r\n\r\n0512-003 mksysb may not have been able to archive some files.\r\n\r\nThe messages displayed on the Standard Error contained additional\r\n\r\ninformation.\r\n\r\n\r\n\r\n这是正常现象，备份成功。\r\n\r\n\r\n\r\n\r\n\r\n2.5系统恢复\r\n \r\n\r\n当系统发生比较严重的故障以致采取一般性维护手段不能在短期内恢复原系统，在与客户进行蹉商后，可将最近一次的系统备份带倒回机器内以全面恢复系统到最近一次做备份时的系统环境，然后可将当日的数据备份再倒回系统内。至此，系统可恢复正常运行。此后，客户应当与IBM工程师再进行整个事件的全面分析与回顾，以期找到故障发生的原因，并采取相应措施以杜绝类似事件再次发生。\r\n\r\n\r\n\r\n2.6 DUMP\r\n\r\n\r\n当系统运行出现软件故障导致系统down机时，机器的液晶显示器会出现 888 102 xxx 0c0 (xxx可能为700或其它)，AIX常会将当时系统的运行情况记录下来，这就是DUMP。\r\n\r\n\r\n\r\n当DUMP产生后，请将磁带放入磁带机，用命令 # snap -a -o /dev/rmt0将DUMP 文件拷贝到磁带设备/dev/rmt0 中。注明磁带机的block size, DUMP产生的日期和机器的型号及序列号。同时，请用# errpt -a >/tmp/err.log 将errorlog 记在/tmp/err.log中，并将 /tmp/err.log 和 /tmp/hacmp.* 拷贝到软盘或磁带上。将磁带和软盘交给IBM工程师。\r\n\r\n\r\n\r\n2.7日常检查服务器状态的项目及其相关命令\r\n1 运行lsdev 命令配以各种参数，所列各种设备状态都应为Available。\r\n\r\n#lsdev –C –H –S a 列出系统中可用设备。\r\n\r\n#lsdev –Cc processor 列出系统中的所有CPU。\r\n\r\n#lsdev –Cc memory 列出系统中的所有内存。\r\n\r\n#lsdev –Cc disk 列出系统中的所有硬盘。\r\n\r\n#lsdev -Cc adapter | grep ent 列出系统中的所有网卡\r\n\r\n#lsdev -Cc adapter | grep scsi 列出系统中的所有SCSI卡。\r\n\r\n#lsdev -Cc adapter | grep ssa 列出系统中的所有SSA卡。\r\n\r\n\r\n\r\n2 lspv命令\r\n\r\n#lspv 显示系统中可用的PV。\r\n\r\n#lspv hdiskn 显示hdiskn的具体信息。\r\n\r\n#lsdev –Cc pdisk 显示磁盘阵列的硬盘的具体信息。\r\n\r\n对SSA硬盘的检测：在对主机进行工作之前可以先把磁盘阵列上电，等主机完全启动后，登录到主机上，运行以下命令“ lsdev –Cc pdisk “,应该可以看到所有SSA硬盘，并且状态应为Available.。\r\n\r\n\r\n\r\n3 lsattr命令\r\n\r\n# lsattr –E –l mem0 列出系统中内存mem0的大小，本项目中内存有4GB。\r\n\r\n\r\n\r\n4 lsvg命令\r\n\r\n#lsvg 列出系统中所有的vg。\r\n\r\n#lsvg rootvg 列出rootvg的详细信息。\r\n\r\n#lsvg –o 列出激活的vg\r\n\r\n\r\n\r\n5 oslevel命令\r\n\r\n#oslevel 显示操作系统版本信息。\r\n\r\n\r\n\r\n6 netstat命令\r\n\r\n#netstat –in 显示系统中各网卡的配置。可查看网卡的IP配置好了没有。\r\n\r\n\r\n\r\n7 通过运行# diag 命令运行硬件诊断程序检测主机内所有硬件，检测结果为 “No trouble found ”显示各部分工作正常。\r\n\r\n \r\n\r\n8 使用#diag命令（选择：Task Selection-> SSA Service Aids）对SSA硬盘链路连接的校验，可以通过SSA 工具里的Link Verification 来检测。如有必要，可以用 Certify Disk运行硬盘诊断部分进行硬盘的表面分析测试，由1% 至100%，检测结果显示主机内置硬盘的所有扇区均读写正常。\r\n\r\n\r\n\r\n9 lsps –a 查看PAGING SPACE的使用情况，如果使用率超过70%，就需要采取措施。\r\n\r\n\r\n\r\n10 lsvg –o | lsvg –il | grep –i stale查看有无stale的lv，如果输入该命令之后有输出结果，就需要采取措施\r\n\r\n\r\n\r\n11 有否发给root用户的错误报告(mail)。\r\n\r\n\r\n\r\n12 检查双机状态：lssrc –g cluster 检查ha三个工作进程是否激活，/usr/sbin/cluster/clstat –a检查双机状态是否up，并检查hacmp.out日志，看是否有异常信息。\r\n\r\n\r\n\r\n13 用vmstat, topas，sar 命令检查系统性能，检查cpu\\memoyr\\IO ，是否存在性能瓶颈。\r\n\r\n\r\n\r\n14 检查能否顺利进入CDE界面，如果不能进入的话，要检查/etc/hosts表中有否错误的项目。\r\n\r\n\r\n\r\n15 用smitty ssaraid 查看磁盘阵列RAID盘的状态是否是Good。如果是degrade或其他状态表示RAID盘出现问题了\r\n\r\n\r\n\r\n16 用sysdumpdev –l 查看系统的DUMP设置是否正常。\r\n\r\n\r\n\r\n17 用instfix –ik | grep ML当前操作系统补丁版本补丁程序(PTF)是否满足稳定运行的需要。一般要求433操作系统补丁要打到10以上，5.1操作系统补丁要打到5以上\r\n\r\n\r\n\r\n18 使用df –kP查看磁盘空间占用率，请确保以下文件系统的占用率高于80%立即上报： \r\n\r\n/ /var /usr /home /tmp /zxindata/zxinbak，其余文件系统的占用率高于95%立即上报\r\n\r\n也可以到各文件系统下使用组合命令：find . –size +2048 –o ctime 1 –exec ls –l {} \\; 查出大于1M或一天之内修改过的文件。\r\n对于出现错误：\r\n\r\nB4C00618 0115140004 P H ssa0 RESOURCE UNAVAILABLE\r\n\r\n而不伴随其他红色标出错误的情况，则通过以下方式排查：\r\n\r\n可能是hdisk中将‘enable user of hot spare’打开了，而实际并没有配置hot spare盘，\r\n\r\n可以通过如下方式解决：\r\n\r\n检查RAID的状态：\r\n\r\n#smitty ssaraid \r\n\r\nlist all defined SSA RAID arrays : all are in status good (ssa0 ) \r\n\r\n检查是否配置了hot spare:\r\n\r\n list/identify SSA Physical disks-->List hot spares : none\r\n\r\n修改每个ssa卡所配置的hdisk的属性：\r\n\r\n: set \"enable use of hot spare\" to \"no\"\r\n\r\n然后再执行：\r\n\r\n# /usr/lib/errstop\r\n\r\n# cp /var/adm/ras/errlog /var/adm/ras/errlog.bak\r\n\r\n#/usr/lib/errdemon\r\n\r\n#errclear 0\r\n\r\n\r\n\r\n对于物理硬盘的接法可参考如下说明：（有可能老局未配置hot spare，则连线方法按未配置hot spare盘的个数计算）\r\n\r\n分以下几种情况讲述：\r\n\r\n1) 数据盘小于等于6块，建议配置一块hotspare\r\n\r\n2) 数据盘大于等于8块小于等于10块，建议配置两块hotspare\r\n\r\n3) 数据盘大于等于12块小于等于14块，建议配置两块hotspare\r\n\r\n\r\n\r\nl 数据盘小于等于6块，配置一块hotspare的接线和配置规则：\r\n\r\na) 主机A1、A2接磁阵1、8位置；备机A1、A2接磁阵4、5位置\r\n\r\nb) 保证磁阵前排1\\4\\5\\8硬盘位置一定要插盘，其余的盘可以挑空位插，注意1-4、5-8两侧的数据盘保持轴对称关系插入（如1和8是轴对称的、4和5是轴对称的）\r\n\r\nc) 没有插硬盘的位置一定要插上dummy盘\r\n\r\nd) 做RAID0＋1时，考虑到性能问题，请将1-4、5-8以轴对称方式一一对应做硬盘镜像，举例如下:\r\n\r\nibm对pdisk的排序与实际的物理位置是不同的，所以必须先通过lsdev -C |grep pdisk的方式找出其对应关系并记录下来，如：\r\n\r\n pdisk0 Available 11-08-1641-01-P SSA160 Physical Disk Drive\r\n\r\n pdisk1 Available 11-08-1641-05-P SSA160 Physical Disk Drive\r\n\r\n pdisk2 Available 11-08-1641-04-P SSA160 Physical Disk Drive\r\n\r\n pdisk3 Available 11-08-1641-08-P SSA160 Physical Disk Drive\r\n\r\n 看第三列中间字符中有-01-的字样，表示其物理硬盘位置，以上对应关系表示\r\n\r\npdisk0-pdisk3对应的物理槽位分别是前排1\\5\\4\\8的位置，所以在使用smitty ssaraid做RAID0+1时，需将1\\8位置的硬盘（pdisk0/pdisk3）做成镜像、4\\5位置的硬盘（pdisk2/pdisk1）做成镜像，所以选择Primary Disks/Secondary Disks时如下：\r\n\r\n smitty ssaraid-> Add an SSA RAID Array -> ...\r\n\r\n Primary Disks [需要选择：pdisk0 pdisk2] -- 1\\4槽位的硬盘作为主盘\r\n\r\n Secondary Disks [需要选择：pdisk3 pdisk1] -- 8\\5槽位的硬盘作为从盘\r\n\r\n 该要求只是从性能考虑，并不增加其他特性。 \r\n\r\ne) hot spare盘插入位置可以找前排8个位置中的空位插入即可。无特殊位置要求，制作方法如下：使用lsdev -C |grep pdisk方式找出其pdisk号，如pdisk5 然后使用如下方式将其做成hot spare盘。\r\n\r\nsmitty ssaraid->Change Use of Multiple SSA Physical Disks->选择ssa卡(连接磁阵的ssa卡，缺省为ssa0)\r\n\r\n->选择作为hotspare的pdisk，如pdisk6 ->New Use->选择 hot spare 按回车创建即可\r\n\r\n \r\n\r\nl 数据盘大于等于8块小于等于10块，配置两块hotspare的接线和配置规则：\r\n\r\na) 主机A1、A2接磁阵1、12位置；备机A1、A2接磁阵8、9位置\r\n\r\nb) 保证磁阵前排1－8位置插满数据盘，9-12位置的数据盘和hot spare盘位置可任意。\r\n\r\nc) 没有插硬盘的位置一定要插上dummy盘\r\n\r\nd) 做RAID0＋1时，考虑到性能问题，请将1-4、5-8以轴对称方式一一对应做硬盘镜像，\r\n\r\n9-12位置中有数据盘的，将其对应做镜像，其余两块做hot spare，举例如下:\r\n\r\nibm对pdisk的排序与实际的物理位置是不同的，所以必须先通过lsdev -C |grep pdisk的方式找出其对应关系并记录下来，如：\r\n\r\n pdisk0 Available 11-08-1641-01-P SSA160 Physical Disk Drive\r\n\r\n pdisk1 Available 11-08-1641-05-P SSA160 Physical Disk Drive\r\n\r\n pdisk2 Available 11-08-1641-04-P SSA160 Physical Disk Drive\r\n\r\n pdisk3 Available 11-08-1641-08-P SSA160 Physical Disk Drive\r\n\r\n pdisk4 Available 11-08-1641-02-P SSA160 Physical Disk Drive\r\n\r\n pdisk5 Available 11-08-1641-03-P SSA160 Physical Disk Drive\r\n\r\n pdisk6 Available 11-08-1641-07-P SSA160 Physical Disk Drive\r\n\r\n pdisk7 Available 11-08-1641-06-P SSA160 Physical Disk Drive\r\n\r\n pdisk8 Available 11-08-1641-09-P SSA160 Physical Disk Drive\r\n\r\n pdisk9 Available 11-08-1641-11-P SSA160 Physical Disk Drive\r\n\r\n pdisk10 Available 11-08-1641-10-P SSA160 Physical Disk Drive\r\n\r\n pdisk11 Available 11-08-1641-12-P SSA160 Physical Disk Drive\r\n\r\n\r\n\r\n 看第三列中间字符中有-01-的字样，表示其物理硬盘位置，以上对应关系表示\r\n\r\npdisk0-pdisk11对应的物理槽位分别是1\\5\\4\\8\\2\\3\\7\\6\\9\\11\\10\\12的位置，所以在使用smitty ssaraid做RAID0+1时，前面八块盘按1-4、5-8轴对称方式对应做mirror,9-12中如选择9(pdisk8)/12(pdisk11)位置做mirror\r\n\r\n所以选择Primary Disks/Secondary Disks时如下：\r\n\r\n smitty ssaraid-> Add an SSA RAID Array -> ...\r\n\r\n Primary Disks [选择：pdisk0 pdisk4 pdisk5 pdisk2 pdisk8] 物理1-4,9槽位\r\n\r\n Secondary Disks [选择：pdisk3 pdisk6 pdisk7 pdisk1 pdisk11]物理8-5,12槽位\r\n\r\n 该要求只是从性能考虑，并不增加其他特性。 \r\n\r\ne) 剩余物理位置10(pdisk10)/11(pdisk9)盘做成hot spare，方法同上e)步骤\r\n\r\n\r\n\r\nl 数据盘大于等于12块小于等于14块，配置两块hotspare的接线和配置规则：\r\n\r\na) 主机A1、A2接磁阵1、16位置；备机A1、A2接磁阵8、9位置\r\n\r\nb) 空出3、14位置插hot spare，如果是12块数据盘，空出2、15位置插dummy盘，其余都插入数据盘；如果是14块数据盘，则将剩余的14个位置全部插上数据盘\r\n\r\nc) 做RAID0＋1时，考虑到性能问题，请将1-8、9-16以轴对称方式一一对应做硬盘镜像， hot spare也满足轴对称关系，举例如下:\r\n\r\nibm对pdisk的排序与实际的物理位置是不同的，所以必须先通过lsdev -C |grep pdisk的方式找出其对应关系并记录下来，如：\r\n\r\n pdisk0 Available 11-08-1641-01-P SSA160 Physical Disk Drive\r\n\r\n pdisk1 Available 11-08-1641-05-P SSA160 Physical Disk Drive\r\n\r\n pdisk2 Available 11-08-1641-04-P SSA160 Physical Disk Drive\r\n\r\n pdisk3 Available 11-08-1641-08-P SSA160 Physical Disk Drive\r\n\r\n pdisk4 Available 11-08-1641-02-P SSA160 Physical Disk Drive\r\n\r\n pdisk5 Available 11-08-1641-03-P SSA160 Physical Disk Drive\r\n\r\n pdisk6 Available 11-08-1641-07-P SSA160 Physical Disk Drive\r\n\r\n pdisk7 Available 11-08-1641-06-P SSA160 Physical Disk Drive\r\n\r\n pdisk8 Available 11-08-1641-09-P SSA160 Physical Disk Drive\r\n\r\n pdisk9 Available 11-08-1641-11-P SSA160 Physical Disk Drive\r\n\r\n pdisk10 Available 11-08-1641-10-P SSA160 Physical Disk Drive\r\n\r\n pdisk11 Available 11-08-1641-12-P SSA160 Physical Disk Drive\r\n\r\n pdisk12 Available 11-08-1641-16-P SSA160 Physical Disk Drive\r\n\r\n pdisk13 Available 11-08-1641-13-P SSA160 Physical Disk Drive\r\n\r\n pdisk14 Available 11-08-1641-15-P SSA160 Physical Disk Drive\r\n\r\n pdisk15 Available 11-08-1641-14-P SSA160 Physical Disk Drive\r\n\r\n\r\n\r\n 看第三列中间字符中有-01-的字样，表示其物理硬盘位置，以上对应关系表示\r\n\r\npdisk0-pdisk15对应的物理槽位分别是1\\5\\4\\8\\2\\3\\7\\6\\9\\11\\10\\12\\16\\13\\15\\14的位置，所以在使用smitty ssaraid做RAID0+1时，以1-8、9-16以轴对称创建mirror所以选择Primary Disks/Secondary Disks时如下：\r\n\r\n smitty ssaraid-> Add an SSA RAID Array -> ...\r\n\r\n Primary Disks [选择：pdisk0 pdisk4 pdisk2 pdisk1 pdisk7 pdisk6 pdisk3] \r\n\r\n物理1-8槽位，除3位置以外\r\n\r\n Secondary Disks [选择：pdisk12 pdisk14 pdisk13 pdisk11 pdisk9 pdisk10 pdisk8]\r\n\r\n物理16-9槽位，除14位置以外\r\n\r\n 该要求只是从性能考虑，并不增加其他特性。\r\n\r\n剩余物理位置3(pdisk5)/14(pdisk15)盘做成hot spare，方法同上e)步骤\r\n\r\n\r\n\r\n3.3 网络故障\r\n由于我们应用对网络依赖很强，所以当网络出现全阻或瞬断都将对系统产生重大影响，网络故障一般可分为硬件故障（如网卡故障和交换机、路由器故障）和软件故障（网络中有IP包攻击或网络拥塞）两种情况。\r\n\r\n\r\n\r\n硬件故障：\r\n\r\n1．网卡\r\n\r\n对于网卡故障，由于商用系统中都是采用IBM的HA双机系统，而且每台机器都配置有至少两块网卡，所以当单块网卡或网线出现问题时，HA软件都将采取措施实现Service IP切换。\r\n\r\n\r\n\r\n网卡故障定位方法：使用errpt –dH 可查看到网卡服务中断的错误，再使用diag进行网卡诊断\r\n\r\n网卡故障排查方法：如果诊断出网卡有问题，则关闭系统后进行更换。（如果是主机，则先手工切换为备机后再操作）\r\n\r\n\r\n\r\n2．交换机\r\n\r\n我们的网络一般都采取双网双平面的结构，所以当一个网络平面的交换机出现问题时，也不会中断网络服务，但值得重视的是：主、备交换机之间的直连线要保持畅通，否则一单发生IBM服务器主机或SIU主机的网卡切换，将导致IBM服务器主机和SIU主机断链，从而导致业务全阻。\r\n\r\n\r\n\r\n还有一种情况，有些地方为了网络安全，对连到switch上的不同设备划分了不同的VLAN，同时又将主、备switch之间改成通过两个口连接，并划分在一个channel group里，当时碰到的一种情况是：\r\n\r\n1)当时IBM服务器的主网卡从缺省VLAN0到VLAN6实现迁移时，网络将出现15秒～30秒的瞬断\r\n\r\n2)当时主、备交换机之间的channel group工作不正常，链路不通。\r\n\r\n当1)发生时，IBM双机发生主、备网卡倒换，但由于2)的问题，导致IBM主机无法与SIU建链。\r\n\r\n\r\n\r\n问题排查及建议：\r\n\r\n1) 建议开局时一定要做双网双平面中一个平面的swith发生掉电的故障测试\r\n\r\n2) 建议一定要做主、备交换机之间的设备之间的网络互访测试，确保畅通\r\n\r\n3) 尽量不要在白天在switch上进行配置修改，如果需要修改，也要在晚上进行，并有严格的方案

返回列表

Chinaunix › 论坛 › 备份版区 › AIX › IBM P系列小型机日常维护

IBM P系列小型机日常维护 [复制链接]