免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: send_linux
打印 上一主题 下一主题

[使用帮助] 自动化运维技术讨论之----运维监控如何帮你提前发现故障(获奖名单已公布-2013-7-31) [复制链接]

论坛徽章:
3
金牛座
日期:2013-08-26 10:25:02摩羯座
日期:2013-09-09 15:14:322015年亚洲杯之约旦
日期:2015-05-06 09:33:56
31 [报告]
发表于 2013-07-09 18:32 |只看该作者
本帖最后由 kooleon 于 2013-07-09 18:51 编辑

回复 5# osapub

zabbix的一些监控内容是从/proc下面文件的内容抓取的,经过换算之后,和平时在主机上看的信息有些出入(比如说磁盘占用率)。另外之前我有一台主机zabbix上ping不通,但是实际上是通的(用nagios时ping 不通的警告就少很多)
写过一些脚本,包括一些IPTABLES的脚本,zabbix的话脚本写得少点,很多东西里面都有,nagios写得就多一些。
国内的开源监控? tsar 吧。
tsar 还是蛮不错的,简洁明了,很方便查看系统运行状态,分析系统瓶颈,做故障分析。故障分析时直接登录到系统里去查询,要比你在监控页面上找查找要快得多。
   

论坛徽章:
0
32 [报告]
发表于 2013-07-10 16:09 |只看该作者
回复 29# kooleon


有没有体验过国产开源软件:osa监控精灵呢?地址是:http://monitor.osapub.com


   

论坛徽章:
3
金牛座
日期:2013-08-26 10:25:02摩羯座
日期:2013-09-09 15:14:322015年亚洲杯之约旦
日期:2015-05-06 09:33:56
33 [报告]
发表于 2013-07-10 18:16 |只看该作者
回复 30# osapub

这个没有用过,看了一下说明和演示版。还是不错的,有机会的话,试试


   

论坛徽章:
0
34 [报告]
发表于 2013-07-11 22:55 |只看该作者
用nagios cacti zabbix 以及自己编写的一些小脚本获基础架构平台和应用程序的状态信息,通过邮件或者短信以及线上ON call电话的形式及时通知管理员。为数据测量加入报警机制,数据加载建立反馈机制。把时间和事件做一个串联。做到未雨绸缪。

论坛徽章:
381
CU十二周年纪念徽章
日期:2014-01-04 22:46:58CU大牛徽章
日期:2013-03-13 15:32:35CU大牛徽章
日期:2013-03-13 15:38:15CU大牛徽章
日期:2013-03-13 15:38:52CU大牛徽章
日期:2013-03-14 14:08:55CU大牛徽章
日期:2013-04-17 11:17:19CU大牛徽章
日期:2013-04-17 11:17:32CU大牛徽章
日期:2013-04-17 11:17:37CU大牛徽章
日期:2013-04-17 11:17:42CU大牛徽章
日期:2013-04-17 11:17:47CU大牛徽章
日期:2013-04-17 11:17:52CU大牛徽章
日期:2013-04-17 11:17:56
35 [报告]
发表于 2013-07-12 15:44 |只看该作者
支持一下茂哥
目前我们使用的是开源的nagios来监控服务器的状态,利用nagios发邮件到手机上,间接实现短信报警.

2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?
最开始使用的是nagios+飞信机器人的方式报警,后来由于老机器挂掉,新机器是64位的,就安装了64位的系统,结果那个飞信机器人就不能用了.
至于误报,nagios默认策略是检测3次才报警,这个在一定程度上能减少误报的概率,用起来还是很方便的.
如果需要,可以修改nagios的主机模板,修改报警的策略.

论坛徽章:
1
狮子座
日期:2013-11-13 22:28:35
36 [报告]
发表于 2013-07-12 16:18 |只看该作者
本帖最后由 chenryn 于 2013-07-12 16:18 编辑

1,分享您在日常运维过程中是通过什么方式发现故障的?

故障发现通过几个方面:
第一是服务器监控,服务器监控来说,现在软件超级多,不过我还是支持nagios,第一是nagios的告警策略设计,可以处理的很详细,用好了就不会让“虚”报警掩埋掉真正有用的报警;第二是nagios社区比较庞大,插件很多,利用pnp4nagios绘图啊,mod_gearman分布式啊都可以解决很多需求。至于自动发现,从nagios的一个python port项目shinken那里扒过来一个nmap解析脚本就可以用了。
Etsy有一句话:“所有的监控软件都朝着做成nagios的方向发展”,以此献给广大监控软件挑迷眼者。

第二是访问监控。可以用基调,也可以自己用js埋点。不过等故障从基调都可以看到了,说明这个故障已经很大了……

第三是实时日志分析。这里推荐logstash,是ruby写的,相信运维多少会些脚本语言,稍微改改ruby的能力还是有的。而其他的类似项目大多是java的,上手难度就比较大了。

2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?

首先,要从监控发展到预警,首先要监控的够全面,这样可以在还没变成“故障”的时候,监控到一些其他数值的异动。
其次,一图胜万言,充分利用RRD或者graphite等工具。

论坛徽章:
71
15-16赛季CBA联赛之同曦
日期:2018-08-23 15:41:42辰龙
日期:2014-08-15 09:07:43狮子座
日期:2014-06-03 13:55:33亥猪
日期:2014-06-02 11:17:08巨蟹座
日期:2014-05-06 10:02:03午马
日期:2014-05-04 08:18:27亥猪
日期:2014-04-29 11:11:32技术图书徽章
日期:2014-04-24 15:51:26技术图书徽章
日期:2014-04-17 11:01:53辰龙
日期:2014-04-15 12:45:46亥猪
日期:2014-04-11 09:06:23射手座
日期:2014-04-01 15:28:10
37 [报告]
发表于 2013-07-12 17:32 |只看该作者
    能提前监控?

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-08-24 06:20:00综合交流区版块每日发帖之星
日期:2015-10-14 06:20:00IT运维版块每日发帖之星
日期:2015-10-25 06:20:00IT运维版块每日发帖之星
日期:2015-11-06 06:20:00IT运维版块每日发帖之星
日期:2015-12-10 06:20:00平安夜徽章
日期:2015-12-26 00:06:302016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-04-15 06:20:00IT运维版块每日发帖之星
日期:2016-05-21 06:20:00综合交流区版块每日发帖之星
日期:2016-08-16 06:20:002015七夕节徽章
日期:2015-08-21 11:06:17IT运维版块每日发帖之星
日期:2015-08-14 06:20:00
38 [报告]
发表于 2013-07-12 19:19 |只看该作者
其实只是需要2个,第一个发出警告的,nagios已经成为业界标准,毋庸置疑。

第二,获取历史记录的,开源的cacti,自己写的也好。无非是C/S 端,agent发送本机的信息,rrdtool或者highchart之类的绘图。

论坛徽章:
5
摩羯座
日期:2014-07-22 09:03:552015元宵节徽章
日期:2015-03-06 15:50:392015亚冠之大阪钢巴
日期:2015-06-12 16:01:352015年中国系统架构师大会
日期:2015-06-29 16:11:2815-16赛季CBA联赛之四川
日期:2018-12-17 14:10:21
39 [报告]
发表于 2013-07-12 20:45 |只看该作者
深切关注此主题

论坛徽章:
5
摩羯座
日期:2014-07-22 09:03:552015元宵节徽章
日期:2015-03-06 15:50:392015亚冠之大阪钢巴
日期:2015-06-12 16:01:352015年中国系统架构师大会
日期:2015-06-29 16:11:2815-16赛季CBA联赛之四川
日期:2018-12-17 14:10:21
40 [报告]
发表于 2013-07-12 20:46 |只看该作者
OSA是纯php,python开发的吗?
节点数最大是多少呢?
是主动报数据还是扫数据呢?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP