免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 15656 | 回复: 54

[使用帮助] 自动化运维技术讨论之----运维监控如何帮你提前发现故障(获奖名单已公布-2013-7-31) [复制链接]

论坛徽章:
49
15-16赛季CBA联赛之福建
日期:2016-06-22 16:22:002015年亚洲杯之中国
日期:2015-01-23 16:25:12丑牛
日期:2015-01-20 09:39:23未羊
日期:2015-01-14 23:55:57巳蛇
日期:2015-01-06 18:21:36双鱼座
日期:2015-01-02 22:04:33午马
日期:2014-11-25 09:58:35辰龙
日期:2014-11-18 10:40:07寅虎
日期:2014-11-13 22:47:15申猴
日期:2014-10-22 15:29:50摩羯座
日期:2014-08-27 10:49:43辰龙
日期:2014-08-21 10:47:58
发表于 2013-07-05 10:28 |显示全部楼层
获奖名单已公布,详情请看:http://bbs.chinaunix.net/thread-4093048-1-1.html

随着互联网技术的日益成熟,人们以互联网产品的用户体验要求越来越高,如何赶在用户之前发现故障,解决问题,受到越来越多的企业关注,也是值得广大IT运维朋友值得思考并解决的一个问题。

对于故障的监控与告警,大部分的监控平台都能够提供了一整套的监控服务,它可以帮助您快速的了网站的可用率、服务器性能、服务状态等信息,发现故障立即通知到指定的用户,赶在用户之前发现并处理掉故障,从而提升用户体验。您只需要通过一个云主机部署好这些监控平台后,即可享受创建成千上万个监控服务的待遇。

但是这些监控平台是如何设计的呢,监控参数如何设置,针对不同规模的监控对象,又是做到如何应变自如的呢?我们邀请到OSA监控精灵的创始人参与我们的话题讨论----如何赶在用户之前发现故障,提升用户体验!

本期话题:

1,分享您在日常运维过程中是通过什么方式发现故障的?
2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?

邀请嘉宾:
Brian 国产开源软件OSA开源运维平台 项目负责人,论坛ID是oaspub
江锋 国产开源软件OSA开源运维平台 项目技术负责人,论坛ID是jiangfengemail
Randy  Ucloud云计算运维总监。

活动时间:2013年7月5日-25日

本期奖品:
最佳经验分享奖1名,奖励由(Ucloud)云计算服务提供商提供的价值2500元的云主机一台,用于个人研发,使用期限一年;
积极经验分享奖6名,奖励技术图书一本,任意挑选;(图书目录:http://bbs.chinaunix.net/thread-4074217-1-1.html)
所有参与讨论的会员,即可获得社区积分20分。

论坛徽章:
3
金牛座
日期:2013-08-26 10:25:02摩羯座
日期:2013-09-09 15:14:322015年亚洲杯之约旦
日期:2015-05-06 09:33:56
发表于 2013-07-08 10:01 |显示全部楼层
噫~~没有人占沙发么?

论坛徽章:
3
金牛座
日期:2013-08-26 10:25:02摩羯座
日期:2013-09-09 15:14:322015年亚洲杯之约旦
日期:2015-05-06 09:33:56
发表于 2013-07-08 10:42 |显示全部楼层
1,嗯,在日常运维中,我们这儿一般都是通过zabbix/cacti/smokeping和一些日常的运维脚本来发现故障的,也有业务同事反映过来的一些故障。
2,说到优化和建议,我又有点纠结zabbix和nagios了,zabbix的报警机制不怎么好使,只是zabbix又有报警又有图表还容易操作只好舍弃nagios ,好像还真没有什么好可以分享的

论坛徽章:
0
发表于 2013-07-08 10:46 |显示全部楼层
支持,监控是个很重要的话题。基本的资源层面的监控已经不能满足业务的发展,需要进一步精细化。

论坛徽章:
0
发表于 2013-07-08 10:54 |显示全部楼层
本帖最后由 osapub 于 2013-07-08 11:00 编辑

回复 3# kooleon

HI,kooleon,您提到zabbix的报警机制不怎么好使,有一些好的建议么?

你们日常发现故障的过程中,有没有尝试自己写一些:zabbix和nagios插件呢?

除了使用过zabbix/cacti/smokeping,有没有尝试过国产开源的一些监控软件呢?


   

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
发表于 2013-07-08 10:55 |显示全部楼层
1,分享您在日常运维过程中是通过什么方式发现故障的?
a.通过监控软件发现故障.比如nagios/Cacti
b.有些不能通过监控软件的需要通过脚本监控。crontab比如Mysql 日志,Replication日志等。
c.另外最近尝试了一些Ganglia的软件监控。
d.还有一些只能通过脚本进程或者返回代码监控的需要自己弄脚本加到crontab监控。
2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?
a.有些时候会有误报或者漏报建议根据实际情况进行调整监控代码或者通过其他途径来实现。
b.有些报警报了一次会有不断的报警这样的case也需要通过修改脚本来避免不断重复报警。

论坛徽章:
0
发表于 2013-07-08 10:58 |显示全部楼层
本帖最后由 gxsoc 于 2013-07-08 11:02 编辑

回复 1# send_linux
1,分享您在日常运维过程中是通过什么方式发现故障的?
答:在日常运维过程中,我们可以通过多种告警方式例如:短信,声音,设备联动,颜色,工单等等,主要还是通过监控平台的声音告警和短信告警来发现故障。
     a,如果我们是有现场人员对着监控机那么我建议第一用声音再加上不同等级的颜色,这样如果监控人员声音没有听到可以看一下大屏幕知道有红色标识或者其他标识来证明有          异常事件然后我们再登陆监控平台进行查看和故障排除。
     b,如果是在家里或者是不在监控现场我们可以通过手机短信来告警,因为我们基本上是人到哪里手机就跟随我们到哪里,这样我们可以及时发现故障。

2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?
答:a,首先我们要提高告警的准确性,这样我们可以通过脚本或是其他程序进行故障多次验证再进行告警.
b,其次就是找稳定的短信接口,提高告警的及时性因为问题出现以后我们要及时发现,这样才能体现监控的真正作用。

   

论坛徽章:
0
发表于 2013-07-08 11:08 |显示全部楼层
回复 6# wenhq


    HI,wenhq ,您有提到:"有些不能通过监控软件的需要通过脚本监控。crontab比如Mysql 日志,Replication日志等"

   1, 如果通过己有的开源软件,提供自定义监控模块,但是具体的脚本还是需要您自己去写,如果有类似软件,能解决你的问题吗?

   2,您提到的建议:"a.有些时候会有误报或者漏报建议根据实际情况进行调整监控代码或者通过其他途径来实现。
                           b.有些报警报了一次会有不断的报警这样的case也需要通过修改脚本来避免不断重复报警。"

   有没有为了这些不足,寻求 过替代方案呢?有没有尝试过国产的一些开源软件呢?

   


论坛徽章:
0
发表于 2013-07-08 11:11 |显示全部楼层
回复 7# gxsoc


hi,gxsoc ..

感谢您提到的建议,您能和大家分享一下你们目前使用的监控工具是哪些吗?


   

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
发表于 2013-07-08 11:16 |显示全部楼层
回复 8# osapub


    1.如果只能用脚本就脚本实现了,没想过再套上模块去监控。呵呵。

    2.也想尝试,最近也在看一些开源的。国内的开源软件用的不多,只用过Lumanager这个。。。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

SACC2019中国系统架构师大会

【数字转型 架构演进】SACC2019中国系统架构师大会
2019年10月31日~11月2日第11届中国系统架构师大会(SACC2019)将在北京隆重召开。四大主线并行的演讲模式,1个主会场、20个技术专场、超千人参与的会议规模,100+来自互联网、金融、制造业、电商等领域的嘉宾阵容,将为广大参会者提供一场最具价值的技术交流盛会。




----------------------------------------

大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP