forgaoqiang 发表于 2013-07-24 21:58

本帖最后由 forgaoqiang 于 2013-07-24 22:05 编辑

1,分享您在日常运维过程中是通过什么方式发现故障的?
关键词:开源监控程序、SNMP、139免费短信邮箱、自定义模板
①当前使用的是开源的解决方案,还是经典的Nagios配合Cacti进行系统监控,主要依靠SNMP协议进行实时的状态信息查看,一旦发现重要的设备离线,立即发送报警邮件到移动的139邮箱,139邮箱都是绑定手机号码的,同时免费的短信就能到达。
当前使用的方案的好处就是成本极低(基本上没有任何的费用),而且程序开放程度非常高,可以自定义监控模板之类的操作,因此非常适合自定义企业使用。
②配合脚本程序进行监控,我们自己写了监控脚本,就是简单的bash脚本,配合crontab进行定期的汇报,上端自己简单做的是PHP+MySQL的结构,接受各种自定义的信息到数据库,并通过Web前端展示出来。

2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?
关键词:自身特点、自定义、故障预警、隐患而不是已经出现故障
最大的优化就是根据自己的需求,对开源的监控方案进行了修改定制,添加了自己的内容,以适合自身的使用。其实当前故障监控最大的问题在于没有足够的趋势分析,很多时候设备要出现问题都有明显的前期现象,这个就和IDS系统的特征库类似,一旦大量总结这些特征,并应用到自定义的特征匹配里面(比如流量、CPU使用、内存占用等等),就可以在设备出现故障之前就能发现问题,即使排除隐患,而不是等待设备除了问题才进行修复。

PS1:这里服务器Linux的机器居多,只有少量的windows server服务器,而且都是2003的(不知道多少企业能够跟上潮流,使用2008设置2012),windows主机没有太好的办法进行监控,另外交换机和路由器,虽然也在监控列表当中,但是都没有出现过故障,这些设备出故障的概率还是比较小的。

PS2:还有就是数据展示的问题,其实对于网管人员来说,数据的形式本身不是很重要,但是领导看不懂呀,因此需要使用nagois 这样的提供很绚丽的图表,这个虽然有些和主题无关,但是作为经验,这样做工作会被看好。

tbxuexi 发表于 2013-07-24 23:11

不错!!!!!!

redcap0 发表于 2013-07-25 22:28

非常不错。

huoyingdk 发表于 2013-08-06 00:09

悲哀,来晚啦……
我觉得集群的概念还是很重要的,这样可以更明确的去了解自己的业务和需要监控的服务和性能

听海★蓝心梦 发表于 2017-02-03 14:17

市场占用率不高
页: 1 2 3 4 5 [6]
查看完整版本: 自动化运维技术讨论之----运维监控如何帮你提前发现故障(获奖名单已公布-2013-7-31)