send_linux 发表于 2013-07-05 10:28

自动化运维技术讨论之----运维监控如何帮你提前发现故障(获奖名单已公布-2013-7-31)

获奖名单已公布,详情请看:http://bbs.chinaunix.net/thread-4093048-1-1.html

随着互联网技术的日益成熟,人们以互联网产品的用户体验要求越来越高,如何赶在用户之前发现故障,解决问题,受到越来越多的企业关注,也是值得广大IT运维朋友值得思考并解决的一个问题。

对于故障的监控与告警,大部分的监控平台都能够提供了一整套的监控服务,它可以帮助您快速的了网站的可用率、服务器性能、服务状态等信息,发现故障立即通知到指定的用户,赶在用户之前发现并处理掉故障,从而提升用户体验。您只需要通过一个云主机部署好这些监控平台后,即可享受创建成千上万个监控服务的待遇。

但是这些监控平台是如何设计的呢,监控参数如何设置,针对不同规模的监控对象,又是做到如何应变自如的呢?我们邀请到OSA监控精灵的创始人参与我们的话题讨论----如何赶在用户之前发现故障,提升用户体验!

本期话题:
1,分享您在日常运维过程中是通过什么方式发现故障的?
2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?

邀请嘉宾:
Brian 国产开源软件OSA开源运维平台 项目负责人,论坛ID是oaspub
江锋 国产开源软件OSA开源运维平台 项目技术负责人,论坛ID是jiangfengemail
RandyUcloud云计算运维总监。

活动时间:2013年7月5日-25日

本期奖品:
最佳经验分享奖1名,奖励由(Ucloud)云计算服务提供商提供的价值2500元的云主机一台,用于个人研发,使用期限一年;
积极经验分享奖6名,奖励技术图书一本,任意挑选;(图书目录:http://bbs.chinaunix.net/thread-4074217-1-1.html)
所有参与讨论的会员,即可获得社区积分20分。

kooleon 发表于 2013-07-08 10:01

噫~~没有人占沙发么?:em49:

kooleon 发表于 2013-07-08 10:42

1,嗯,在日常运维中,我们这儿一般都是通过zabbix/cacti/smokeping和一些日常的运维脚本来发现故障的,也有业务同事反映过来的一些故障。
2,说到优化和建议,我又有点纠结zabbix和nagios了,zabbix的报警机制不怎么好使,只是zabbix又有报警又有图表还容易操作只好舍弃nagios:-L ,好像还真没有什么好可以分享的:D)

albert_cu 发表于 2013-07-08 10:46

支持,监控是个很重要的话题。基本的资源层面的监控已经不能满足业务的发展,需要进一步精细化。

osapub 发表于 2013-07-08 10:54

本帖最后由 osapub 于 2013-07-08 11:00 编辑

回复 3# kooleon

HI,kooleon,您提到zabbix的报警机制不怎么好使,有一些好的建议么?

你们日常发现故障的过程中,有没有尝试自己写一些:zabbix和nagios插件呢?

除了使用过zabbix/cacti/smokeping,有没有尝试过国产开源的一些监控软件呢?


   

wenhq 发表于 2013-07-08 10:55

1,分享您在日常运维过程中是通过什么方式发现故障的?
a.通过监控软件发现故障.比如nagios/Cacti
b.有些不能通过监控软件的需要通过脚本监控。crontab比如Mysql 日志,Replication日志等。
c.另外最近尝试了一些Ganglia的软件监控。
d.还有一些只能通过脚本进程或者返回代码监控的需要自己弄脚本加到crontab监控。
2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?
a.有些时候会有误报或者漏报建议根据实际情况进行调整监控代码或者通过其他途径来实现。
b.有些报警报了一次会有不断的报警这样的case也需要通过修改脚本来避免不断重复报警。

gxsoc 发表于 2013-07-08 10:58

本帖最后由 gxsoc 于 2013-07-08 11:02 编辑

回复 1# send_linux
1,分享您在日常运维过程中是通过什么方式发现故障的?
答:在日常运维过程中,我们可以通过多种告警方式例如:短信,声音,设备联动,颜色,工单等等,主要还是通过监控平台的声音告警和短信告警来发现故障。
   a,如果我们是有现场人员对着监控机那么我建议第一用声音再加上不同等级的颜色,这样如果监控人员声音没有听到可以看一下大屏幕知道有红色标识或者其他标识来证明有          异常事件然后我们再登陆监控平台进行查看和故障排除。
   b,如果是在家里或者是不在监控现场我们可以通过手机短信来告警,因为我们基本上是人到哪里手机就跟随我们到哪里,这样我们可以及时发现故障。

2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?
答:a,首先我们要提高告警的准确性,这样我们可以通过脚本或是其他程序进行故障多次验证再进行告警.
b,其次就是找稳定的短信接口,提高告警的及时性因为问题出现以后我们要及时发现,这样才能体现监控的真正作用。

   

osapub 发表于 2013-07-08 11:08

回复 6# wenhq


    HI,wenhq ,您有提到:"有些不能通过监控软件的需要通过脚本监控。crontab比如Mysql 日志,Replication日志等"

   1, 如果通过己有的开源软件,提供自定义监控模块,但是具体的脚本还是需要您自己去写,如果有类似软件,能解决你的问题吗?

   2,您提到的建议:"a.有些时候会有误报或者漏报建议根据实际情况进行调整监控代码或者通过其他途径来实现。
                           b.有些报警报了一次会有不断的报警这样的case也需要通过修改脚本来避免不断重复报警。"

   有没有为了这些不足,寻求 过替代方案呢?有没有尝试过国产的一些开源软件呢?

   


osapub 发表于 2013-07-08 11:11

回复 7# gxsoc


hi,gxsoc ..

感谢您提到的建议,您能和大家分享一下你们目前使用的监控工具是哪些吗?


   

wenhq 发表于 2013-07-08 11:16

回复 8# osapub


    1.如果只能用脚本就脚本实现了,没想过再套上模块去监控。呵呵。

    2.也想尝试,最近也在看一些开源的。国内的开源软件用的不多,只用过Lumanager这个。。。
页: [1] 2 3 4 5 6 7 8 9 10
查看完整版本: 自动化运维技术讨论之----运维监控如何帮你提前发现故障(获奖名单已公布-2013-7-31)