免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2235 | 回复: 0
打印 上一主题 下一主题

[系统管理] 巡检 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-03-15 22:34 |只看该作者 |倒序浏览

1、设备巡检   2008-12-19  摘抄源于 菜鸟AIX成长日记
巡检一般又厂商或者代理商来做。
第一:首先是机房温度以及湿度的检查,当然这些一般情况都没问题。
         参考值:温度(摄氏 ℃)        10 ℃-40℃
                湿度                  8% -80%
第二:就是关于电源的检测,这个只要不是新装机,一般没问题。
        参考值: 零-地电压        小于1V
                     火-地电压        200-240V
        补充:当然59系列的机器相间380V,相地240V。
第三:关于报错。
        主要查看硬件的永久性报错   #errpt -dH | pg
               软件的永久性报错   #errpt -dS | pg
               还有系统又没又报警灯(如果不正常,在后面的帖子将会细讲)
第三:机器的序列号:#uname -Mu
第四:操作系统版本:#oslevel -r      注:又时候不能使用是因为系统版本低的原因
第五:其他检测
执行sysdumpdev –l 检查dump是否设置为always allow sysdump
执行sysdumpdev –e检查当前dump大小应该为主dump设备的大小的80%以下
执行lsvg -l rootvg检查有否"stale"状态的逻辑卷
执行lsps -s检查内存交换区占用情况
执行df –k检查文件系统的分配状况,一般不要超过80%
执行lsdev –Cc disk检查硬盘状态为available
执行lsdev -Cc cdrom检查光驱状态为available
执行lsdev –Cc adapter检查PCI卡状态为available
执行lsdev –Cc tape检查磁带机状态为available
执行lsdev – Cc processor检查CPU状态为available
执行 lsattr –El sys0|grep autorestart  检查系统crash后是否自动重新启动
执行lsattr –El sys0|grep cpuguard检查CPU GUARD是否开启
执行lsattr –El mem0检查内存状态正常size=goodsize
执行 vmstat 2
iostat,topas观察us,sy,pi,po,内存占用率,硬盘读写速度等检查是否有性能瓶颈
执行netstat –in和netstat –rn观察网络状态
执行entstat –d enX检测网卡运行速率与交换机速率是否匹配(网卡速率由10M半工改为自适应时,缺省网关会丢失。更改网卡速率后需要在系统中执行smitty route操作重新激活缺省路由。如果进行网卡速率的调整,请务必小心。)
执行ping命令检查网络连接状况
执行lsdev –C|grep aio 检查异步IO是否可用
执行lssrc –g cluster查看是否有三个进程均为active状态(这个主要看起了几个HA的进程了,有的时候是一个或两个)
执行/usr/sbin/cluster/clstat –a查看cluster状态是否正常
检查/etc/hosts, 确保双机配置中IP别名不会存在包含关系(share_ip1包含了share_ip)
执行
more /usr/es/adm/cluster.log
more /usr/es/sbin/cluster/history/*
cat /tmp/hacmp.out
检查这三个日志中是否有error或者fail.
检查7133面板上的指示灯,如果黄灯亮则需要诊断问题
HOTspare 磁盘检测
1、检查是否有raid保护 # smitty ssaraid--->List All Defined SSA RAID Arrays
2、检查是否有Hot Spare # smitty ssaraid--->List Components in a Hot Spare Pool
对于7133,执行Smitty ssaraid List All Defined SSA RAID Arrays查看7133 raid状态,正常应该为good状态。
对于7133,执行Smitty ssaraidChange/Show Use of an SSA Physical Disk查看7133硬盘状态,正常应该为member或者spare状态
对于FastT,分别登录上两个controller (登陆方法后面详细讲解),查看是否有错误日志。
记录检查结果
基本就是这些命令吧,如果我有遗漏后面继续补充。
查看设备所有信息
#prtconf|more
显示每一个CPU的频率
#pmcycles -m
查看PV
#lsattr -El hdiskN  *N=1,2,3,...
查看内存
#bootinfo -r
或者先使用命令#  lsdev -Cc memory
再使用命令# lsattr -El memN    *N=1,2,3,...
查看每个内存的信息
# lscfg -vp | grep -ip memory | more
cpu (主频*数量)    #lsattr -El proc0


本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u3/93744/showart_1864167.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP