免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: send_linux

[使用帮助] 自动化运维技术讨论之----运维监控如何帮你提前发现故障(获奖名单已公布-2013-7-31) [复制链接]

论坛徽章:
0
发表于 2013-07-09 10:26 |显示全部楼层
回复 15# perpyy

OSA前端采用PHP的主要原因有两方面,
第一:当时开源开发团队开发前端的人,对django之类框架没有接触过,熟悉PHP。
第二:PHP语言在WEB开发这一块,无论是文档还是参考资料都相对较多,开发效率也较快。

   

论坛徽章:
0
发表于 2013-07-09 10:52 |显示全部楼层
回复 17# litao941

HI,litao941,非常感谢您参考OSA的一些细节讨论。

您提的建议非常不错,自动化不够,监控的关联性  是我们一直在尝试解决的一些问题,目前的版本存在不少改进的空间,感谢宝贵的建议。

关于日志监控这一块,有计划添加这一块的功能,但还在构思具体的实现方式,也欢迎各位能提供更好的思路。





   

论坛徽章:
5
技术图书徽章
日期:2013-08-27 10:03:49CU大牛徽章
日期:2013-09-18 15:16:55CU大牛徽章
日期:2013-09-18 15:18:22CU大牛徽章
日期:2013-09-18 15:18:43技术图书徽章
日期:2014-04-24 15:51:26
发表于 2013-07-09 11:46 |显示全部楼层
本帖最后由 Purple_Grape 于 2013-07-09 11:51 编辑

提前发现故障,这点很难,大家都不是预言家, 一般都是故障发生了才知道的。要提前发现,多靠部署时考虑周全,事后反复修改反而容易导致人为故障。

目前的监控系统都是比较完善的,nagios,cacti,zabbix 都非常优秀,尤其是nagios,撇开大规模监控的性能问题不讲,就功能上讲,自己写脚本,可以任意扩展。

看了下OSA的demo,发现还比较实用美观,强烈希望加入事故和变更的记录,方便排障。

论坛徽章:
0
发表于 2013-07-09 13:50 |显示全部楼层
zabbix的discovery功能还是不错的,结合macro可以自动发现交换下的所有网口、host上的所有磁盘、网卡回复 3# kooleon


   

论坛徽章:
0
发表于 2013-07-09 13:57 |显示全部楼层
回复 7# gxsoc
同意你说的告警准确性,同时告警的频率也需要控制好,如果warning级别的告警就发了上千条,那么对于critical级别的告警恐怕就很难注意到了,这样告警也就没有存在的意义了!


   

论坛徽章:
0
发表于 2013-07-09 14:03 |显示全部楼层
回复 10# wenhq
模板我觉得还是不能完全丢弃的,我最近在看zabbix,很多监控项也是在zabbix的模板基础上修改的,毕竟是官方的模板的语法更严谨一些,值得参考。:wink:


   

论坛徽章:
0
发表于 2013-07-09 14:11 |显示全部楼层
回复 17# litao941
很全面,收藏了!


   

论坛徽章:
21
白羊座
日期:2013-08-23 15:49:17金牛座
日期:2013-10-08 17:00:03处女座
日期:2013-10-12 11:54:11CU十二周年纪念徽章
日期:2013-10-24 15:41:34午马
日期:2013-11-27 14:07:21巨蟹座
日期:2013-12-04 10:56:03水瓶座
日期:2013-12-04 15:58:00亥猪
日期:2014-05-24 16:02:3115-16赛季CBA联赛之辽宁
日期:2016-11-07 13:52:53戌狗
日期:2013-08-23 16:15:31白羊座
日期:2013-08-24 21:59:24巨蟹座
日期:2013-08-25 16:34:24
发表于 2013-07-09 16:54 |显示全部楼层
1,分享您在日常运维过程中是通过什么方式发现故障的?
我们公司现在用的是zabbix+cacti,可以满足我们的需求,感觉zabbix还不错,如果我们的监控内容出现问题,会马上报警的,
基本上没有什么延迟,也有一些问题可能也是用户来反映过来的。还有就是自己写的小脚本,也很好用。

2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?
zabbix 中文文档少,鸟文看着累。希望更多的人来用,这样出现问题会好解决。

论坛徽章:
3
金牛座
日期:2013-08-26 10:25:02摩羯座
日期:2013-09-09 15:14:322015年亚洲杯之约旦
日期:2015-05-06 09:33:56
发表于 2013-07-09 18:32 |显示全部楼层
本帖最后由 kooleon 于 2013-07-09 18:51 编辑

回复 5# osapub

zabbix的一些监控内容是从/proc下面文件的内容抓取的,经过换算之后,和平时在主机上看的信息有些出入(比如说磁盘占用率)。另外之前我有一台主机zabbix上ping不通,但是实际上是通的(用nagios时ping 不通的警告就少很多)
写过一些脚本,包括一些IPTABLES的脚本,zabbix的话脚本写得少点,很多东西里面都有,nagios写得就多一些。
国内的开源监控? tsar 吧。
tsar 还是蛮不错的,简洁明了,很方便查看系统运行状态,分析系统瓶颈,做故障分析。故障分析时直接登录到系统里去查询,要比你在监控页面上找查找要快得多。
   

论坛徽章:
0
发表于 2013-07-10 16:09 |显示全部楼层
回复 29# kooleon


有没有体验过国产开源软件:osa监控精灵呢?地址是:http://monitor.osapub.com


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

SACC2019中国系统架构师大会

【数字转型 架构演进】SACC2019中国系统架构师大会,7折限时优惠重磅来袭!
2019年10月31日~11月2日第11届中国系统架构师大会(SACC2019)将在北京隆重召开。四大主线并行的演讲模式,1个主会场、20个技术专场、超千人参与的会议规模,100+来自互联网、金融、制造业、电商等领域的嘉宾阵容,将为广大参会者提供一场最具价值的技术交流盛会。

限时七折期:2019年8月31日前


----------------------------------------

大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP