osapub 发表于 2013-07-09 10:26

回复 15# perpyy

OSA前端采用PHP的主要原因有两方面,
第一:当时开源开发团队开发前端的人,对django之类框架没有接触过,熟悉PHP。
第二:PHP语言在WEB开发这一块,无论是文档还是参考资料都相对较多,开发效率也较快。

   

osapub 发表于 2013-07-09 10:52

回复 17# litao941

HI,litao941,非常感谢您参考OSA的一些细节讨论。

您提的建议非常不错,自动化不够,监控的关联性是我们一直在尝试解决的一些问题,目前的版本存在不少改进的空间,感谢宝贵的建议。

关于日志监控这一块,有计划添加这一块的功能,但还在构思具体的实现方式,也欢迎各位能提供更好的思路。





   

Purple_Grape 发表于 2013-07-09 11:46

本帖最后由 Purple_Grape 于 2013-07-09 11:51 编辑

提前发现故障,这点很难,大家都不是预言家, 一般都是故障发生了才知道的。要提前发现,多靠部署时考虑周全,事后反复修改反而容易导致人为故障。

目前的监控系统都是比较完善的,nagios,cacti,zabbix 都非常优秀,尤其是nagios,撇开大规模监控的性能问题不讲,就功能上讲,自己写脚本,可以任意扩展。

看了下OSA的demo,发现还比较实用美观,强烈希望加入事故和变更的记录,方便排障。

Ucloud_Randy 发表于 2013-07-09 13:50

zabbix的discovery功能还是不错的,结合macro可以自动发现交换下的所有网口、host上的所有磁盘、网卡回复 3# kooleon


   

Ucloud_Randy 发表于 2013-07-09 13:57

回复 7# gxsoc
同意你说的告警准确性,同时告警的频率也需要控制好,如果warning级别的告警就发了上千条,那么对于critical级别的告警恐怕就很难注意到了,这样告警也就没有存在的意义了!


   

Ucloud_Randy 发表于 2013-07-09 14:03

回复 10# wenhq
模板我觉得还是不能完全丢弃的,我最近在看zabbix,很多监控项也是在zabbix的模板基础上修改的,毕竟是官方的模板的语法更严谨一些,值得参考。:wink:


   

Ucloud_Randy 发表于 2013-07-09 14:11

回复 17# litao941
:) 很全面,收藏了!


   

zongg 发表于 2013-07-09 16:54

1,分享您在日常运维过程中是通过什么方式发现故障的?
我们公司现在用的是zabbix+cacti,可以满足我们的需求,感觉zabbix还不错,如果我们的监控内容出现问题,会马上报警的,
基本上没有什么延迟,也有一些问题可能也是用户来反映过来的。还有就是自己写的小脚本,也很好用。

2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?
zabbix 中文文档少,鸟文看着累。希望更多的人来用,这样出现问题会好解决。

kooleon 发表于 2013-07-09 18:32

本帖最后由 kooleon 于 2013-07-09 18:51 编辑

回复 5# osapub

zabbix的一些监控内容是从/proc下面文件的内容抓取的,经过换算之后,和平时在主机上看的信息有些出入(比如说磁盘占用率)。另外之前我有一台主机zabbix上ping不通,但是实际上是通的(用nagios时ping 不通的警告就少很多)
写过一些脚本,包括一些IPTABLES的脚本,zabbix的话脚本写得少点,很多东西里面都有,nagios写得就多一些。
国内的开源监控? tsar 吧。:em49:
tsar 还是蛮不错的,简洁明了,很方便查看系统运行状态,分析系统瓶颈,做故障分析。故障分析时直接登录到系统里去查询,要比你在监控页面上找查找要快得多。:em49:
   

osapub 发表于 2013-07-10 16:09

回复 29# kooleon


有没有体验过国产开源软件:osa监控精灵呢?地址是:http://monitor.osapub.com


   
页: 1 2 [3] 4 5 6 7 8 9 10 11 12
查看完整版本: 自动化运维技术讨论之----运维监控如何帮你提前发现故障(获奖名单已公布-2013-7-31)