免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: send_linux
打印 上一主题 下一主题

[使用帮助] 自动化运维技术讨论之----运维监控如何帮你提前发现故障(获奖名单已公布-2013-7-31) [复制链接]

论坛徽章:
5
技术图书徽章
日期:2013-08-27 10:03:49CU大牛徽章
日期:2013-09-18 15:16:55CU大牛徽章
日期:2013-09-18 15:18:22CU大牛徽章
日期:2013-09-18 15:18:43技术图书徽章
日期:2014-04-24 15:51:26
41 [报告]
发表于 2013-07-13 15:46 |只看该作者
回复 39# T-Bagwell


    我也没极限数据,手头机器不够多。

论坛徽章:
0
42 [报告]
发表于 2013-07-13 19:50 |只看该作者
1. 在日常运维过程中是通过什么方式发现故障的?

发现故障是通过: a. 核心系统smokeping的声音告警和短信告警,
b. 全部系统zabbix的短信告警
前提:超详细的设备参数监控和异常数据判断标准


2. 针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?

故障预警的建议:
a.对异常数据趋势的预测判断
b.能够重启的设备定期重启测试是否正常

论坛徽章:
21
白羊座
日期:2013-08-23 15:49:17金牛座
日期:2013-10-08 17:00:03处女座
日期:2013-10-12 11:54:11CU十二周年纪念徽章
日期:2013-10-24 15:41:34午马
日期:2013-11-27 14:07:21巨蟹座
日期:2013-12-04 10:56:03水瓶座
日期:2013-12-04 15:58:00亥猪
日期:2014-05-24 16:02:3115-16赛季CBA联赛之辽宁
日期:2016-11-07 13:52:53戌狗
日期:2013-08-23 16:15:31白羊座
日期:2013-08-24 21:59:24巨蟹座
日期:2013-08-25 16:34:24
43 [报告]
发表于 2013-07-15 16:01 |只看该作者
kooleon 发表于 2013-07-08 10:42
1,嗯,在日常运维中,我们这儿一般都是通过zabbix/cacti/smokeping和一些日常的运维脚本来发现故障的,也有 ...
zabbix的报警机制不怎么好使


感觉还可以啊。

论坛徽章:
3
季节之章:冬
日期:2015-01-15 10:36:57IT运维版块每日发帖之星
日期:2015-09-24 06:20:00IT运维版块每日发帖之星
日期:2015-10-24 06:20:00
44 [报告]
发表于 2013-07-16 08:43 |只看该作者
本帖最后由 ylky_2000 于 2013-07-17 13:56 编辑

2013-07-16
跟进下。先留记录。
2013-07-17
1,分享您在日常运维过程中是通过什么方式发现故障的?
    综合起来有3种常见方式:
1)监控系统自动报警机制;
   这里我们采用的是cacti开源监控系统和华为网络监控软件,前者主要监控流量统计情况,后一者主要监控设备在线情况。
   cacti:主要是自动采用邮件报警,当流量超过设定的阈值的时候会主动发一封邮件到指定的邮箱;
  华为网络监控软件:主要针对网络设备,监控平台会通过颜色的变化和声音提醒设备在线状况,有短信功能,不过短信网关的费用等问题,没有部署。
  电源方面:安装了一个语音报警系统,当市电断电,会自动拨打运维人员的手机号码,告知市电停止工作,一般ups的续航时间有限,根据停电时间的长短判断是否需要关闭部分非主要服务器或者设备,保证ups的更长续航时间。
2)主动巡检发现机制;
   日常巡检:主要是利用cacti,提供一个guest用户到巡检人员,定期巡检设备状态。这个是日常的巡检结合手段之一;
   周期巡检:现场巡检为主,除了看设备状态外,还检查温度、空调、电源等等情况。
3)被动等待客服反映机制。
    公布运维的电话,有问题请客户及时反映。及时跟进处理。
2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?
     建议1:网络top发现功能,我所接触到的top发现功能,都是以网段为单位,这个跟我们想要的企业三层top架构有区别,希望能按照三层网络架构的方式生成top。
     建议2:日志功能,大部分包括开源网络监控系统对日志管理不怎么友好,对日志的呈现方面希望能更友好,如rsyslog还算可以,不过配置过程比较复杂。
    报警策略方面:不友好,如短信报警,不停的发不停的发,浪费资源并过份骚扰运维人员,策略方面更优化点,报警1到2次就可以,恢复的时候再发一次就已经达到效果了。     
    建议4:提供开发接口,目前集成化是方向,太多的运维平台、运维系统,如果提供接口,可以将各类平台和系统统一在一个界面中管理,实现协同工作。
暂时这么多吧。

论坛徽章:
0
45 [报告]
发表于 2013-07-16 10:03 |只看该作者
回复 10# wenhq

都是一些大家常用的东东,比如:nagios,mrtg,cacti,不过我们主要还是通过ossim系统来做了一些适合自己使用的一些开发功能,加上商业化的一些产品来完成我们的监控工作,

   

论坛徽章:
0
46 [报告]
发表于 2013-07-16 10:05 |只看该作者
回复 9# osapub

都是一些大家常用的东东,比如:nagios,mrtg,cacti,不过我们主要还是通过ossim系统来做了一些适合自己使用的一些开发功能,加上商业化的一些产品来完成我们的监控工作。

   

论坛徽章:
1
狮子座
日期:2013-09-06 17:18:40
47 [报告]
发表于 2013-07-24 12:50 |只看该作者
1,分享您在日常运维过程中是通过什么方式发现故障的?
   (1)对于物理上的故障,经过对机房进行监控、定期巡检再辅以软件监控来发现。
   (2)对于业务逻辑实现的故障,需要一些监控软件和脚本常态化的对于网络、日志、资源使用等进行监控,发现问题即时报警,同时用户在使用过程的过程中也可以帮助反应一些问题。
    软件使用nagios,脚本一般用Shell/perl/python来做。
2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?
   (1)故障发现好做,故障预警就难做了,这方面可以结合一些数据挖掘的技术来进行,通过多方面的统计分析,预测可能存在的错误,然后重点检查加强。
   (2)做好记录,通常有些问题可能重复发生,这样可以提高效率。
   (3)监控软件的选择最好选择基于插件的,可多元化配置的,这样更有利于适应自己的需求和扩展。

论坛徽章:
0
48 [报告]
发表于 2013-07-24 17:55 |只看该作者
快结束了,分享一个Q群和很全的snmp MIB库的链接:
1、QQ群:92242469 这个群应该算是目前国内zabbix交流最大的Q群了,里面很多都是zabbix大规模部署的实践者,不过里面也有很多小白的提问。
2、使用snmp监控,免不了要查监控项的oid信息,这个地址里有很多MIB的库,想要检索的项目都可以找到http://www.telecomm.uh.edu/stats/rfc/

lollol

论坛徽章:
39
白银圣斗士
日期:2015-11-24 10:40:40酉鸡
日期:2015-03-20 14:15:44寅虎
日期:2015-03-20 14:13:59午马
日期:2015-03-20 14:13:16白羊座
日期:2015-03-20 14:12:54金牛座
日期:2015-03-20 14:12:09双子座
日期:2015-03-20 14:11:57巨蟹座
日期:2015-03-20 14:11:44狮子座
日期:2015-03-20 14:11:29亥猪
日期:2015-03-20 14:16:24戌狗
日期:2015-03-20 14:16:40申猴
日期:2015-03-20 14:17:05
49 [报告]
发表于 2013-07-24 19:33 |只看该作者
1,分享您在日常运维过程中是通过什么方式发现故障的?
引用基本都是自己写脚本监控,监控端口,pid一类的,异常之后重启,发邮件,还有过短信同志。系统基本都是用云主机自带的监控
2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?
使用的一些云平台自带的监控还是比较详细的。监控需要及时通知,最好能做到短信通知,及时知道能把风险控制到最低

论坛徽章:
40
水瓶座
日期:2013-08-15 11:26:422015年辞旧岁徽章
日期:2015-03-03 16:54:152015年亚洲杯之乌兹别克斯坦
日期:2015-03-27 14:01:172015年亚洲杯之约旦
日期:2015-03-31 15:06:442015亚冠之首尔
日期:2015-06-16 23:24:37IT运维版块每日发帖之星
日期:2015-07-01 22:20:002015亚冠之德黑兰石油
日期:2015-07-08 09:32:07IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-10-10 06:20:00IT运维版块每日发帖之星
日期:2015-10-11 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
50 [报告]
发表于 2013-07-24 21:58 |只看该作者
本帖最后由 forgaoqiang 于 2013-07-24 22:05 编辑

1,分享您在日常运维过程中是通过什么方式发现故障的?
关键词:开源监控程序、SNMP、139免费短信邮箱、自定义模板
①当前使用的是开源的解决方案,还是经典的Nagios配合Cacti进行系统监控,主要依靠SNMP协议进行实时的状态信息查看,一旦发现重要的设备离线,立即发送报警邮件到移动的139邮箱,139邮箱都是绑定手机号码的,同时免费的短信就能到达。
当前使用的方案的好处就是成本极低(基本上没有任何的费用),而且程序开放程度非常高,可以自定义监控模板之类的操作,因此非常适合自定义企业使用。
②配合脚本程序进行监控,我们自己写了监控脚本,就是简单的bash脚本,配合crontab进行定期的汇报,上端自己简单做的是PHP+MySQL的结构,接受各种自定义的信息到数据库,并通过Web前端展示出来。

2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?
关键词:自身特点、自定义、故障预警、隐患而不是已经出现故障
最大的优化就是根据自己的需求,对开源的监控方案进行了修改定制,添加了自己的内容,以适合自身的使用。其实当前故障监控最大的问题在于没有足够的趋势分析,很多时候设备要出现问题都有明显的前期现象,这个就和IDS系统的特征库类似,一旦大量总结这些特征,并应用到自定义的特征匹配里面(比如流量、CPU使用、内存占用等等),就可以在设备出现故障之前就能发现问题,即使排除隐患,而不是等待设备除了问题才进行修复。

PS1:这里服务器Linux的机器居多,只有少量的windows server服务器,而且都是2003的(不知道多少企业能够跟上潮流,使用2008设置2012),windows主机没有太好的办法进行监控,另外交换机和路由器,虽然也在监控列表当中,但是都没有出现过故障,这些设备出故障的概率还是比较小的。

PS2:还有就是数据展示的问题,其实对于网管人员来说,数据的形式本身不是很重要,但是领导看不懂呀,因此需要使用nagois 这样的提供很绚丽的图表,这个虽然有些和主题无关,但是作为经验,这样做工作会被看好。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP