免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 23042 | 回复: 29
打印 上一主题 下一主题

[系统管理] 巡检报告以及操作手册 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-01-04 15:55 |只看该作者 |倒序浏览
无意中发现,我断断续续在CU上已经4年零一个月了,新的财年已经来到,又该到客户现场去巡检了,估计和我一样的朋友很多,把我的一些资料发给大家共享吧:

                        巡检报告单
机器型号:
序列号:  

检查时间:_______年____月____日

1.        机房环境:
        温度                                   □符合要求    □不符合
        湿度                                   □符合要求    □不符合

2.        机器清洁(根据需要清洁机器各部件):       □已清洁 □不需要

3.        检查系统硬件情况:
        设备故障灯是否有亮                  □有                □无
        是否有其他否异常情况(如硬盘、风扇异常的声音,电缆破损)
□有                □无

4.        系统错误报告(Error Log):        
        有否硬件故障        □有                □无
故障内容:
若有硬件,运行故障诊断分析错误报告( eg: diag -ed hdisk1)
结论(如SRN, FRU等):

        有否软件故障        □有                □无
故障内容:
结论:

5.        有否发给root用户的错误报告(mail):         □有     □无
结论:

6.        检查hacmp.out,smit.log,bootlog等:       □正常        □不正常

7.        文件系统的使用率不大于80%:                □是            □否

8.        查看卷组信息(lsvg -l vg_name),有没有"stale"状态的逻辑卷:□是          □否
若有,用syncvg 命令修复"stale"逻辑卷。
备注:

9.        系统性能,有否性能瓶颈(topas, vmstat等):        □有         □无
        交换区使用率是否超过70%(lsps -s),实际值____
        CPU是否繁忙(sar 1 10),idle值_____
        I/O平衡(iostat 1)

10.        备份:
        有否合符要求的系统备份:         □有      □无
        最近一次系统备份的时间_________
        有否符合要求的用户数据备份:          □有                □无
        有否符合要求的用户数据备份:          □有                □无
        磁带机是否需要清洗:         □需要         □不需

11.        通信:
        网卡的状态、IP地址、路由表等:           □正常                □不正常
        网卡通信(ping):                    □正常                □不正常
        /etc/hosts文件或DNS设置:             □正常                □不正常

12.        系统DUMP设置是否正确:                □正常                □不正常

13.        HACMP 测试:        
        Cluster Verification:                □正常          □不正常;  
        相关参数设置检查:                 □正常         □不正常
        (根据需要)接管测试:               □正常            □不正常   

14.        系统硬件诊断:
        系统板、CPU、内存、I/O板:                 □正常           □不正常
        网卡、SCSI卡、SSA卡:               □正常           □不正常       
        系统其他扩展卡:                                     □正常           □不正常
        硬盘、磁盘阵列:                                     □正常           □不正常
        磁带机、磁带库:                                     □正常           □不正常

15.        查系统参数是否正确:                        □是       □否
        I/O pacing: High Water Mark/Low Water Mark:33/24
        Syncd:10
        Aio :available
        /etc/environment文件中TZ不应有夏时制
        Hacmp 系统中Power Monitor子系统应关闭

16.        补丁程序(PTF)检查,现有补丁维护版本为_____:
根据系统运行状况决定是否安装新的PTF。
需要安装的补丁程序:

17.        运行#snap –ac,生成文件命名为snap+s/n.pax.Z。

18.        检查errdemon, srcmstr是否正常运行:        □是    □否

论坛徽章:
0
2 [报告]
发表于 2007-01-04 15:56 |只看该作者
巡检内容及操作指导
1. IBM RS6000小型机机房要求:
1.        机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。
2.        温度(摄氏 ℃)
10 ℃-40℃
湿度(%)
8% -80%

2.        设备故障灯分类:
主机故障灯
面板上不能有数字显示,如果有的话,说明系统有故障。
FAStT700磁盘阵列故障灯
告警灯为黄色表示有故障
磁带机故障灯
告警灯为黄色说明有故障或磁带机太脏,须清洗。

3.        系统错误报告(Error Log)的检查:
        硬件故障检测命令:# errpt -d H -T PERM
若有故障执行命令# errpt -a -d H -T PERM>/tmp/harderror.log保存,分析结果报告给客户
        软件故障检测命令:# errpt -d S -T PERM
若有故障执行命令# errpt -a -d S -T PERM>/tmp/softerror.log保存,分析结果报告给客户

4.        有否发给root用户的错误报告(mail):         
#mail
1.        观察所有未读消息,注意有关diagela的消息。
2.        常用命令:
h [<num>]               Display headings of group containing message <num>
t [<msg_list>]          Display messages in <msg_list> or current message.
n                       Display next message.
q                       Quit
3.        对发现的问题详细分析,结果报告给客户
5.        文件系统的检查:
命令:
# df –kP
%Used为文件系统的使用率。所有文件系统的使用率不能大于80%

6.磁带机清洁的检查:
命令:       
#/usr/lpp/diagnostics/bin/utape -cd rmt0 –n
显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。

6.        通信系统的检测:       
1.        网卡的状态
命令:
#ifconfig –a
输出判断:
en0: flags=7e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD,CHECKSUM_SUPPORT,PSEG>
inet 192.168.1.3 netmask 0xffffff00 broadcast 192.168.1.255
主备网卡的flag为UP属正常。同时检查ip地址和netmask是否正确。

2.        路由的检测
命令:
#lsattr –El inet0
hostname      shaixsvr Host Name                        True
gateway                Gateway                          True
route                  Route                            True
bootup_option no       Serial Optical Network Interface True
rout6                  FDDI Network Interface           True
authm         65536    Authentication Methods           True

3.        网络的检测
命令:
#ping [ip address]
输出判断:
用ping命令对/etc/hosts文件中的IP地址进行操作,检测网络是否联通。

RAID 的Hotspare 属性是否打开
        #smitty ssaraid Change/Show Attributes of an SSA RAID Array
检查Enable Use of Hot Spares属性是否为YES

8.系统DUMP设置的检查       
命令:
#sysdumdev –l
输出判断:
结果应为
primary              /dev/hd6
secondary            /dev/sysdumpnull
copy directory       /var/adm/ras
forced copy flag     TRUE
always allow dump    FALSE
dump compression     OFF
若不正确请用下列命令修改:
#sysdumdev –P –p /dev/hd6 –s /dev/sysdumpnull


9.HACMP 配置检测: Cluster Verification:
命令:
# /usr/sbin/cluster/diag/clconfig -v '-tr'
输出判断:
结果无Fail项输出。

10.系统硬件诊断:
           命令顺序为:
    1.#diag
        2.Enter
        3.Diagnostic Routines
4.System Verification
5.All Resources
6.F7
输出判断:
结果应为No trouble was found.

11.补丁程序(PTF)的检查          
1.        系统维护补丁版本为ML05,检查命令为:
#instfix –i |grep ML

12.系统参数的检查       
1.HIGH water mark for pending write I/Os
# lsattr -El sys0 |grep maxpout
输出判断:
结果应为
maxpout     33      HIGH water mark for pending write I/Os per file   True
2.LOW water mark for pending write I/Os
# lsattr -El sys0|grep minpout
输出判断:
结果应为
minpout     24      LOW water mark for pending write I/Os per file    True
        更改命令为:
#chdev -l sys0 -a maxpout='33' -a minpout='24'

3.Syncd参数
# grep syncd /sbin/rc.boot
输出判断:
结果应为
nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &
        更改命令为:
#vi /sbin/rc.boot

4.aio参数
# lsdev -Cc aio
输出判断:
结果应为
aio0 Available  Asynchronous I/O
# lsattr -El aio0
输出判断:
结果应为
minservers 1         MINIMUM number of servers                True
maxservers 10        MAXIMUM number of servers                True
maxreqs    4096      Maximum number of REQUESTS               True
kprocprio  39        Server PRIORITY                          True
autoconfig available STATE to be configured at system restart True
fastpath   enable    State of fast path                       True
        更改命令为:
#smitty aio

5.Limits文件的设置:
#ulimit –a
输出判断:
结果应为
time(seconds)        unlimited
file(blocks)         2097151
data(kbytes)         262144  //尤其是这项参数
stack(kbytes)        32768
memory(kbytes)       32768
coredump(blocks)     2097151
nofiles(descriptors) 2000
        更改命令为:
#vi /etc/security/limits
更改data为524288

论坛徽章:
0
3 [报告]
发表于 2007-01-04 15:58 |只看该作者
顶了,收藏!沙发!:)

论坛徽章:
0
4 [报告]
发表于 2007-01-04 16:02 |只看该作者
楼主,能不能再整理一份巡检的具体步骤
那才相当的完美!

论坛徽章:
0
5 [报告]
发表于 2007-01-04 16:11 |只看该作者
原帖由 steven_cwj 于 2007-1-4 16:02 发表
楼主,能不能再整理一份巡检的具体步骤
那才相当的完美!



巡检具体操作,第二帖不是写出来了吗?你还要什么步骤,是命令行?

论坛徽章:
0
6 [报告]
发表于 2007-01-04 22:30 |只看该作者
顶了。。。

论坛徽章:
0
7 [报告]
发表于 2007-01-05 09:02 |只看该作者
收了,谢谢LZ,辛苦辛苦!!!

论坛徽章:
0
8 [报告]
发表于 2007-01-05 16:15 |只看该作者
这家伙好象有点面熟!!!!

论坛徽章:
0
9 [报告]
发表于 2007-01-05 16:44 |只看该作者

回复 8楼 sliny 的帖子

谢谢,刚才没看到。。呵呵

论坛徽章:
0
10 [报告]
发表于 2007-01-07 18:06 |只看该作者
原帖由 sliny 于 2007-1-5 16:15 发表
这家伙好象有点面熟!!!!



说谁呢?你是?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP