免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123456
最近访问板块 发新帖
楼主: send_linux

[使用帮助] 自动化运维技术讨论之----运维监控如何帮你提前发现故障(获奖名单已公布-2013-7-31) [复制链接]

论坛徽章:
40
水瓶座
日期:2013-08-15 11:26:422015年辞旧岁徽章
日期:2015-03-03 16:54:152015年亚洲杯之乌兹别克斯坦
日期:2015-03-27 14:01:172015年亚洲杯之约旦
日期:2015-03-31 15:06:442015亚冠之首尔
日期:2015-06-16 23:24:37IT运维版块每日发帖之星
日期:2015-07-01 22:20:002015亚冠之德黑兰石油
日期:2015-07-08 09:32:07IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-10-10 06:20:00IT运维版块每日发帖之星
日期:2015-10-11 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
发表于 2013-07-24 21:58 |显示全部楼层
本帖最后由 forgaoqiang 于 2013-07-24 22:05 编辑

1,分享您在日常运维过程中是通过什么方式发现故障的?
关键词:开源监控程序、SNMP、139免费短信邮箱、自定义模板
①当前使用的是开源的解决方案,还是经典的Nagios配合Cacti进行系统监控,主要依靠SNMP协议进行实时的状态信息查看,一旦发现重要的设备离线,立即发送报警邮件到移动的139邮箱,139邮箱都是绑定手机号码的,同时免费的短信就能到达。
当前使用的方案的好处就是成本极低(基本上没有任何的费用),而且程序开放程度非常高,可以自定义监控模板之类的操作,因此非常适合自定义企业使用。
②配合脚本程序进行监控,我们自己写了监控脚本,就是简单的bash脚本,配合crontab进行定期的汇报,上端自己简单做的是PHP+MySQL的结构,接受各种自定义的信息到数据库,并通过Web前端展示出来。

2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?
关键词:自身特点、自定义、故障预警、隐患而不是已经出现故障
最大的优化就是根据自己的需求,对开源的监控方案进行了修改定制,添加了自己的内容,以适合自身的使用。其实当前故障监控最大的问题在于没有足够的趋势分析,很多时候设备要出现问题都有明显的前期现象,这个就和IDS系统的特征库类似,一旦大量总结这些特征,并应用到自定义的特征匹配里面(比如流量、CPU使用、内存占用等等),就可以在设备出现故障之前就能发现问题,即使排除隐患,而不是等待设备除了问题才进行修复。

PS1:这里服务器Linux的机器居多,只有少量的windows server服务器,而且都是2003的(不知道多少企业能够跟上潮流,使用2008设置2012),windows主机没有太好的办法进行监控,另外交换机和路由器,虽然也在监控列表当中,但是都没有出现过故障,这些设备出故障的概率还是比较小的。

PS2:还有就是数据展示的问题,其实对于网管人员来说,数据的形式本身不是很重要,但是领导看不懂呀,因此需要使用nagois 这样的提供很绚丽的图表,这个虽然有些和主题无关,但是作为经验,这样做工作会被看好。

论坛徽章:
0
发表于 2013-07-24 23:11 |显示全部楼层
不错!!!!!!

论坛徽章:
0
发表于 2013-07-25 22:28 |显示全部楼层
非常不错。

论坛徽章:
0
发表于 2013-08-06 00:09 |显示全部楼层
悲哀,来晚啦……
我觉得集群的概念还是很重要的,这样可以更明确的去了解自己的业务和需要监控的服务和性能

论坛徽章:
0
发表于 2017-02-03 14:17 |显示全部楼层
市场占用率不高
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP