免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 26907 | 回复: 20

日常维护检查 [复制链接]

论坛徽章:
0
发表于 2003-02-14 14:11 |显示全部楼层
日常维护检查使用指南

硬件
在这部分中,我们检查以下内容:

面板指示:
在大多数的服务器中,都由一个液晶面板,显示服务器的执行状态。在正常情况下,应该是FxxF的格式。在系统出现故障时,会出现WARNING或FAULT的提示。具体请参见《技术指南》。

系统管理员应该定期检查该指示,确认系统正常工作;否则,应该立即联系HP公司。

 

服务器中的各个扩展卡的指示灯
在服务器中,存在多种扩展卡,例如,SCSI卡(连接SCSI设备),以太网卡等。这些卡都由一个或多个指示灯。从这些指示灯可以了解这些卡的工作情况。

具体情况,请参见各个卡的说明书。

SCSI卡:
在正常情况下,自检灯(self test)应该是暗的;终结电源指示灯(Terminator PWR)是亮的

以太网卡:
在正常情况下,自检灯(self test)应该是暗的;连接灯(Link)是亮的

其他卡:
外设的状态
大部分外设也都由自己的状态指示。下面是比较常见的几种:

M10,M20,M30磁盘阵列
这些磁盘阵列,正常情况下,硬盘的指示灯:应该是绿色;如果变成黄色,则说明该磁盘发生故障。

维修灯(Service Lamp):

应该是绿色;如果变成黄色,则说明该阵列中存在故障部件。例如,硬盘故障。

AutoRAID磁盘阵列
该磁盘阵列有一个液晶面板。如果出现故障,在面板上会出现Warning提示信息。

磁带库
磁带库一般也有一个液晶面板。如果出现故障,在面板上会出现报错信息。

其他外设
XP256:该外设实全冗余的如果有部件发生故障,会自动通过DDN拨号到美国技术中心。

其他硬件检测:
在N4000中,有一个attention灯,正常情况下,该灯应该是暗的。如果是黄色的,则说明系统中存在一些问题。

操作系统
在这一部分,通过一些实用、简单的命令,检查系统的情况:

控制台( console )显示
在系统出现问题时,常常会在控制台上显示一些出错信息。系统管理员应该定期检查这些信息。这往往是最方便的方式。

另外,在使用完毕后,应该确保退出控制台,从而避免一些安全性问题。

命令“dmesg”
系统中存在一个错误缓冲区,系统将自检信息和遇到的错误、报警放在该缓冲区中。

我们可以通过dmesg命令,阅读该缓冲区。

在正常情况下,该缓冲区只应该包含自检信息。如果出现了warining、error或者是一些不熟悉的信息,应该仔细检查或通知HP服务人员。

命令“uptime”
该命令显示了系统自从上次重启以来运行的时间。通过该命令,可以知道系统是否发生了异常的重启。

命令“bdf”
系统中文间系统过满,有时会导致系统工作不正常。

我们可以用该命令显示了文件系统的使用情况。

如果发现某个文件系统过满,需要及时采取措施,或者删除无用的信息,或者扩大该文件系统。

命令“mail”
系统在发现问题时,往往会把一些信息发给root用户。

系统管理员应该定期检查root的mail信息,以确认系统中不存在异常。

日志“/var/adm/syslog/syslog.log”
该日志文件中包含一些重要的维护信息。系统管理员应该定期用more或者vi命令,检查该文件。

系统管理员如果发现warning、error、failure以及一些不熟悉的信息,应该提高警惕。

 

命令“cmviewcl”
对于运行了双机备份软件的用户而言,应该定期检查系统的运行情况。

确认应用包、节点和网络均正常工作。

其他命令
用netstat –in检查网络状况,尤其是ATM网卡。

 

备份
系统管理员应该检查:

是否按照计划完成了备份
备份过程是否正常
应用
系统管理员也应该养成定期检查应用的习惯。在支持服务中,操作系统工作正常,但用户应用由于种种原因无法正常工作的例子并不罕见。

根据具体情况,系统管理员应该检查:

应用的日志文件
组成应用的主要进程的执行情况,例如数据库的DBWR,LGWR等等。

论坛徽章:
0
发表于 2003-02-18 14:19 |显示全部楼层

日常维护检查

313232213
3

论坛徽章:
0
发表于 2003-02-18 14:50 |显示全部楼层

日常维护检查

和我们每天做的一样,我也传一份:
(HP9000)小型机日常维护流程表                                                                       
主机名:                       
                                               
检查时间:08:00/10:30/13:00/16:30(其中08:00全检查)                                                                       
日期                        检查人                               
        检查内容                                       
环境       温度合适       
           
           电源线路/插座                                                       
硬件         主机面板显示:RUN,无ERROR信息                                                               
        硬盘灯//磁带机//磁盘阵列灯(电源灯/硬盘灯)                                                               
        网络是否正常(背后面板网卡等灯是否异常闪烁)                                                               
        控制台(console显示)                                                               
操作系统        #dmesg (系统诊断信息)                                                               
        #uptime (系统UP后运行时间及登录用户信息)                                                               
        #bdf (文件系统信息used%<90%,特别是                                                               
        /stand目录很重要)                                                               
        #mail (读root的mail信息)                                                               
        #glance(系统性能监测报告)                                                               
        #sar 1 10/sar -d 1 3(cpu/disk运行报告)                                                               
查看log        #top(看占用CPU大的进程)                                                               
并清理一        #/var/adm/syslog/syslog.log(系统日志)                                                               
些log        #/etc/rc.log(运行日志)                                                               
        #/var/adm/wtmp(登录成功日志)可清理(#>;wtmp)                                                               
        #/var/adm/btmp(登录失败日志)可清理(#>;btmp)                                                               
        core 文件的清理(#find / -name core -exec rm {} \;)                                                               
        大文件(#find / -name -size +10000)                                                               
        注:以上文件确认无用后rm删除                                                               
应用程序                       
备份是否完成正常                                                               
       
备注        今天增加/删除unix用户记录                                                               
        检查过程是否碰到问题?                                                               
        今天故障是否出现,如何解决?

论坛徽章:
0
发表于 2003-02-19 08:14 |显示全部楼层

日常维护检查

小叶子,你运行的什么数据库????

论坛徽章:
0
发表于 2003-02-19 08:23 |显示全部楼层

日常维护检查

你们没有数据库检查????????

论坛徽章:
0
发表于 2003-02-19 09:20 |显示全部楼层

日常维护检查

一般用ORACLE

论坛徽章:
0
发表于 2003-02-19 10:43 |显示全部楼层

日常维护检查

有啊!现在是INFORMIX,马上要换ORACLE了,你们呢?

论坛徽章:
0
发表于 2003-02-19 11:06 |显示全部楼层

日常维护检查

sybase

论坛徽章:
0
发表于 2006-12-08 17:03 |显示全部楼层
好,实例看着就是实在

论坛徽章:
0
发表于 2011-06-30 10:16 |显示全部楼层
留个名,下次看
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP