免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: send_linux

[使用帮助] 自动化运维技术讨论之----运维监控如何帮你提前发现故障(获奖名单已公布-2013-7-31) [复制链接]

论坛徽章:
3
金牛座
日期:2013-08-26 10:25:02摩羯座
日期:2013-09-09 15:14:322015年亚洲杯之约旦
日期:2015-05-06 09:33:56
发表于 2013-07-10 18:16 |显示全部楼层
回复 30# osapub

这个没有用过,看了一下说明和演示版。还是不错的,有机会的话,试试


   

论坛徽章:
0
发表于 2013-07-11 22:55 |显示全部楼层
用nagios cacti zabbix 以及自己编写的一些小脚本获基础架构平台和应用程序的状态信息,通过邮件或者短信以及线上ON call电话的形式及时通知管理员。为数据测量加入报警机制,数据加载建立反馈机制。把时间和事件做一个串联。做到未雨绸缪。

论坛徽章:
381
CU十二周年纪念徽章
日期:2014-01-04 22:46:58CU大牛徽章
日期:2013-03-13 15:32:35CU大牛徽章
日期:2013-03-13 15:38:15CU大牛徽章
日期:2013-03-13 15:38:52CU大牛徽章
日期:2013-03-14 14:08:55CU大牛徽章
日期:2013-04-17 11:17:19CU大牛徽章
日期:2013-04-17 11:17:32CU大牛徽章
日期:2013-04-17 11:17:37CU大牛徽章
日期:2013-04-17 11:17:42CU大牛徽章
日期:2013-04-17 11:17:47CU大牛徽章
日期:2013-04-17 11:17:52CU大牛徽章
日期:2013-04-17 11:17:56
发表于 2013-07-12 15:44 |显示全部楼层
支持一下茂哥
目前我们使用的是开源的nagios来监控服务器的状态,利用nagios发邮件到手机上,间接实现短信报警.

2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?
最开始使用的是nagios+飞信机器人的方式报警,后来由于老机器挂掉,新机器是64位的,就安装了64位的系统,结果那个飞信机器人就不能用了.
至于误报,nagios默认策略是检测3次才报警,这个在一定程度上能减少误报的概率,用起来还是很方便的.
如果需要,可以修改nagios的主机模板,修改报警的策略.

论坛徽章:
1
狮子座
日期:2013-11-13 22:28:35
发表于 2013-07-12 16:18 |显示全部楼层
本帖最后由 chenryn 于 2013-07-12 16:18 编辑

1,分享您在日常运维过程中是通过什么方式发现故障的?

故障发现通过几个方面:
第一是服务器监控,服务器监控来说,现在软件超级多,不过我还是支持nagios,第一是nagios的告警策略设计,可以处理的很详细,用好了就不会让“虚”报警掩埋掉真正有用的报警;第二是nagios社区比较庞大,插件很多,利用pnp4nagios绘图啊,mod_gearman分布式啊都可以解决很多需求。至于自动发现,从nagios的一个python port项目shinken那里扒过来一个nmap解析脚本就可以用了。
Etsy有一句话:“所有的监控软件都朝着做成nagios的方向发展”,以此献给广大监控软件挑迷眼者。

第二是访问监控。可以用基调,也可以自己用js埋点。不过等故障从基调都可以看到了,说明这个故障已经很大了……

第三是实时日志分析。这里推荐logstash,是ruby写的,相信运维多少会些脚本语言,稍微改改ruby的能力还是有的。而其他的类似项目大多是java的,上手难度就比较大了。

2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?

首先,要从监控发展到预警,首先要监控的够全面,这样可以在还没变成“故障”的时候,监控到一些其他数值的异动。
其次,一图胜万言,充分利用RRD或者graphite等工具。

论坛徽章:
71
15-16赛季CBA联赛之同曦
日期:2018-08-23 15:41:42辰龙
日期:2014-08-15 09:07:43狮子座
日期:2014-06-03 13:55:33亥猪
日期:2014-06-02 11:17:08巨蟹座
日期:2014-05-06 10:02:03午马
日期:2014-05-04 08:18:27亥猪
日期:2014-04-29 11:11:32技术图书徽章
日期:2014-04-24 15:51:26技术图书徽章
日期:2014-04-17 11:01:53辰龙
日期:2014-04-15 12:45:46亥猪
日期:2014-04-11 09:06:23射手座
日期:2014-04-01 15:28:10
发表于 2013-07-12 17:32 |显示全部楼层
    能提前监控?

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-08-24 06:20:00综合交流区版块每日发帖之星
日期:2015-10-14 06:20:00IT运维版块每日发帖之星
日期:2015-10-25 06:20:00IT运维版块每日发帖之星
日期:2015-11-06 06:20:00IT运维版块每日发帖之星
日期:2015-12-10 06:20:00平安夜徽章
日期:2015-12-26 00:06:302016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-04-15 06:20:00IT运维版块每日发帖之星
日期:2016-05-21 06:20:00综合交流区版块每日发帖之星
日期:2016-08-16 06:20:002015七夕节徽章
日期:2015-08-21 11:06:17IT运维版块每日发帖之星
日期:2015-08-14 06:20:00
发表于 2013-07-12 19:19 |显示全部楼层
其实只是需要2个,第一个发出警告的,nagios已经成为业界标准,毋庸置疑。

第二,获取历史记录的,开源的cacti,自己写的也好。无非是C/S 端,agent发送本机的信息,rrdtool或者highchart之类的绘图。

论坛徽章:
5
摩羯座
日期:2014-07-22 09:03:552015元宵节徽章
日期:2015-03-06 15:50:392015亚冠之大阪钢巴
日期:2015-06-12 16:01:352015年中国系统架构师大会
日期:2015-06-29 16:11:2815-16赛季CBA联赛之四川
日期:2018-12-17 14:10:21
发表于 2013-07-12 20:45 |显示全部楼层
深切关注此主题

论坛徽章:
5
摩羯座
日期:2014-07-22 09:03:552015元宵节徽章
日期:2015-03-06 15:50:392015亚冠之大阪钢巴
日期:2015-06-12 16:01:352015年中国系统架构师大会
日期:2015-06-29 16:11:2815-16赛季CBA联赛之四川
日期:2018-12-17 14:10:21
发表于 2013-07-12 20:46 |显示全部楼层
OSA是纯php,python开发的吗?
节点数最大是多少呢?
是主动报数据还是扫数据呢?

论坛徽章:
5
摩羯座
日期:2014-07-22 09:03:552015元宵节徽章
日期:2015-03-06 15:50:392015亚冠之大阪钢巴
日期:2015-06-12 16:01:352015年中国系统架构师大会
日期:2015-06-29 16:11:2815-16赛季CBA联赛之四川
日期:2018-12-17 14:10:21
发表于 2013-07-12 20:54 |显示全部楼层
Purple_Grape 发表于 2013-07-09 11:46
提前发现故障,这点很难,大家都不是预言家, 一般都是故障发生了才知道的。要提前发现,多靠部署时考虑周全 ...


能够说一下nagios大规模监控的性能的峰值呢?

论坛徽章:
10
CU大牛徽章
日期:2013-09-18 15:20:48程序设计版块每日发帖之星
日期:2016-07-21 06:20:00IT运维版块每日发帖之星
日期:2015-07-30 09:40:01技术图书徽章
日期:2014-10-14 16:00:43天蝎座
日期:2013-09-27 17:41:29CU大牛徽章
日期:2013-09-18 15:21:17CU大牛徽章
日期:2013-09-18 15:21:12CU大牛徽章
日期:2013-09-18 15:21:06CU大牛徽章
日期:2013-09-18 15:20:58每日论坛发贴之星
日期:2016-07-21 06:20:00
发表于 2013-07-12 21:33 |显示全部楼层
1,分享您在日常运维过程中是通过什么方式发现故障的?
服务类的通过脚本定期测度连通性,通过电子邮件获得通知。
网络就弄个vpn,断了直接在桌面上有弹出。

2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?
冷备很重要,光有通知,没有恢复手段还是白忙
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

SACC2019中国系统架构师大会

【数字转型 架构演进】SACC2019中国系统架构师大会,8.5折限时优惠重磅来袭!
2019年10月31日~11月2日第11届中国系统架构师大会(SACC2019)将在北京隆重召开。四大主线并行的演讲模式,1个主会场、20个技术专场、超千人参与的会议规模,100+来自互联网、金融、制造业、电商等领域的嘉宾阵容,将为广大参会者提供一场最具价值的技术交流盛会。

限时8.5折扣期:2019年9月30日前


----------------------------------------

大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP