免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: send_linux

[使用帮助] 自动化运维技术讨论之----运维监控如何帮你提前发现故障(获奖名单已公布-2013-7-31) [复制链接]

论坛徽章:
22
CU大牛徽章
日期:2013-09-18 15:22:06白羊座
日期:2014-04-14 22:56:32午马
日期:2014-05-16 17:18:08巳蛇
日期:2014-05-30 20:53:19寅虎
日期:2014-06-03 10:53:34未羊
日期:2014-08-12 22:15:31神斗士
日期:2015-11-20 17:26:2515-16赛季CBA联赛之浙江
日期:2016-03-15 18:27:4215-16赛季CBA联赛之同曦
日期:2016-03-22 09:21:0115-16赛季CBA联赛之北控
日期:2017-03-26 21:47:12技术图书徽章
日期:2014-04-03 16:47:26摩羯座
日期:2014-03-25 23:51:36
发表于 2013-07-08 11:37 |显示全部楼层
1,分享您在日常运维过程中是通过什么方式发现故障的?
开源cacti、zabbix、zenoss等开源软件,还有用snmp做的一个破系统,一些比较简单的脚本。
交换机用netflow做流量分析。另外机房里面还用了IBM的tivoli。通常都是每天巡检时看看有没有警告之类的,
另外就是被监控系统发告警短信了(悲剧)。

2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?
有些东西软件没有的话就得自己写脚本,但是预警和监控肯定是要设置好规则,不然每天收到一大堆的监控信息邮件就是个问题,会让
人看都看不过来的。另外就是每天做好规划的巡检事务,有序的逐项检查,不能忽视每一项,因为会出现一些以前完全没有发生过问题
的系统出问题。最后就是写好故障处理历史,形成良好的故障处理记录,以后一查就大概能直到是什么回事了。

论坛徽章:
2
CU大牛徽章
日期:2013-04-17 11:46:28CU大牛徽章
日期:2013-04-17 11:46:39
发表于 2013-07-08 13:44 |显示全部楼层
主题好像是说如何提前发现问题,感觉变成了监控工具的讨论了

论坛徽章:
0
发表于 2013-07-08 15:55 |显示全部楼层
回复 12# gavindev

监控工具是提前发现故障的一种途径,讨论的会比较多,也欢迎提供其他方面的思路和经验分享:wink:


   

论坛徽章:
2
CU大牛徽章
日期:2013-04-17 11:46:28CU大牛徽章
日期:2013-04-17 11:46:39
发表于 2013-07-08 16:03 |显示全部楼层
本帖最后由 gavindev 于 2013-07-08 16:05 编辑

个人感觉可以细分点讨论的几个方面,
信息的采集:采集哪些数据,采集方法
信息的记录:是临时报警用还是持久记录在案
信息的后续处理:是展示成图还是文本保存,是仅仅记录,有需要去查看一下,还是能够监控阈值,超过则报警
告警方式:手机短信,QQ,还是邮件等,或者是人工
告警的实时性:是实时还是监控10分钟,5分钟,1分钟
也可以包括如何记录处理记录,
如何做到比用户先发现问题,比业务方先发现问题



论坛徽章:
0
发表于 2013-07-08 21:33 |显示全部楼层
用过cacti
上次下载过osa 看了一下大概是用python+php+shell脚本实现的吧?
既然用了python  为何前台不直接用django之类框架的呢
我不懂php....只好舍弃了

论坛徽章:
49
15-16赛季CBA联赛之福建
日期:2016-06-22 16:22:002015年亚洲杯之中国
日期:2015-01-23 16:25:12丑牛
日期:2015-01-20 09:39:23未羊
日期:2015-01-14 23:55:57巳蛇
日期:2015-01-06 18:21:36双鱼座
日期:2015-01-02 22:04:33午马
日期:2014-11-25 09:58:35辰龙
日期:2014-11-18 10:40:07寅虎
日期:2014-11-13 22:47:15申猴
日期:2014-10-22 15:29:50摩羯座
日期:2014-08-27 10:49:43辰龙
日期:2014-08-21 10:47:58
发表于 2013-07-08 22:41 |显示全部楼层
perpyy 发表于 2013-07-08 21:33
用过cacti
上次下载过osa 看了一下大概是用python+php+shell脚本实现的吧?
既然用了python  为何前台不直 ...


@osapub  帮忙看看呢?

论坛徽章:
0
发表于 2013-07-09 00:15 |显示全部楼层
本帖最后由 litao941 于 2013-07-09 00:17 编辑

我也来凑凑热闹

分享您在日常运维过程中是通过什么方式发现故障的?
第一个问题说3点:

1. 监控平台(最能第一时间反映问题出在哪里,某个服务挂了,空间满了……)

2. 日志及相关服务进程是否正常(通过错误日志、系统进程是否正常来着手,也是1的进化版,90%问题在这步能搞定)

3. 例如性能瓶颈引发的故障问题,从监控和日志都可能无法获取,业务逻辑复杂性,可能需要开发协同查问题,这是最麻烦的,处理时间 30min +

附一个处理故障流程图:

故障处理流程

故障处理流程



针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?
第二个问题也说3点:

1. OSA 部署过,监控配置的复杂性没有做到更好的智能化(或者说自动化不够),一般服务器上跑应用是必须的,模块化的嵌入到
这些服务器上如纯 web(nginx/apache+php) 的监控, 数据库缓存(redis/mongo/mysql……)监控,目前这些监控需要有一
个通用web api,用户直接通过平台来输入一些信息即可添加成功,而不是手动的去增加文件之类,另外这些“插件”也不是很齐全。

2. 监控的关联性需要完善, 例如有三个站点要在监控平台上,涉及到的监控服务多了,可能无法直接关联,比如其中一个502,我们
需要更快的速度去发现是这个站点是 php 有问题,还是缓存有问题,又或者是数据库问题。将同一个域名关联到一个组,可以一眼望
尽。同样,可以按不同服务来 group by。

3. 说一点建议,前面发现故障第二点有提到,90% 问题能在日志和进程中服务体现,如何集中快捷提取这些日志,针对出现过如
“error”、“warnning”关键字报警机制,希望能在OSA 中实现。

论坛徽章:
0
发表于 2013-07-09 00:24 |显示全部楼层
再补一下:监控的方式不管是使用的agent 还是snmp,监控工具不管是nagios、cacti、zabbix、还是osa,都是为了达到同样的目的--->便于我们快速发现和定位故障。

osa 虽有不足,但只要去做,才有能做出好样工具的希望,支持osa 开发者们!

论坛徽章:
18
卯兔
日期:2013-09-27 17:41:0615-16赛季CBA联赛之佛山
日期:2016-07-09 17:34:45操作系统版块每周发帖之星
日期:2015-12-02 15:01:04IT运维版块每日发帖之星
日期:2015-12-02 06:20:00IT运维版块每日发帖之星
日期:2015-10-07 06:20:00IT运维版块每日发帖之星
日期:2015-10-03 06:20:00IT运维版块每日发帖之星
日期:2015-10-01 06:20:00羊年新春福章
日期:2015-04-01 17:56:06拜羊年徽章
日期:2015-04-01 17:56:062015年迎新春徽章
日期:2015-03-04 09:49:452015年辞旧岁徽章
日期:2015-03-03 16:54:15天秤座
日期:2015-01-14 06:39:28
发表于 2013-07-09 08:02 |显示全部楼层
本帖最后由 qingduo04 于 2013-07-09 08:03 编辑

1,分享您在日常运维过程中是通过什么方式发现故障的?
   主要原理是根部不同的监控内容采取不同的监控方式进行监控,主要有:
   1.数据库级别的监控,包含表空间、事务日志、数据库连接正常与否,分区数据库各分区连接正常与否,通过perl程序和java 进行监控,出现异常或者达到阀值进行报警。
   2.针对windows主机、小型机、linux主机等进行python监控,主要是监控主机PING是否正常?小型机硬件报警?文件系统空间是否正常?相关的关键程序(核心程序)是否正常? 通过配置进行阀值报警。
   3. 针对服务器等监控,一般采用机房巡检的方式,涉及到设备繁多、hp、ibm小型机、刀片、存储等监控。 。

2,针对目前使用的故障的预警和监控机制,您有哪些优化心得或建议,请分享一二?
   当前我们监控系统对于前两种比较好,但是机房巡检这个有时候很耗费人力和物力,尤其是机房离办公场所很远的时候,耗费的更多了!
综述现场监控没有采用开源的监控软件,比如osa等监控,纯属是自己根据现场情况进行报警,当然需要报警的内容应该还远远不够,比如存储链路等,还请各位大侠互享一下监控方式,让我们能学习一下。谢谢

论坛徽章:
18
卯兔
日期:2013-09-27 17:41:0615-16赛季CBA联赛之佛山
日期:2016-07-09 17:34:45操作系统版块每周发帖之星
日期:2015-12-02 15:01:04IT运维版块每日发帖之星
日期:2015-12-02 06:20:00IT运维版块每日发帖之星
日期:2015-10-07 06:20:00IT运维版块每日发帖之星
日期:2015-10-03 06:20:00IT运维版块每日发帖之星
日期:2015-10-01 06:20:00羊年新春福章
日期:2015-04-01 17:56:06拜羊年徽章
日期:2015-04-01 17:56:062015年迎新春徽章
日期:2015-03-04 09:49:452015年辞旧岁徽章
日期:2015-03-03 16:54:15天秤座
日期:2015-01-14 06:39:28
发表于 2013-07-09 08:08 |显示全部楼层
回复 19# qingduo04


    再补充一下,前两种有短信报警和平台报警,后一种纯属人工报警。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

SACC2019中国系统架构师大会

【数字转型 架构演进】SACC2019中国系统架构师大会,8.5折限时优惠重磅来袭!
2019年10月31日~11月2日第11届中国系统架构师大会(SACC2019)将在北京隆重召开。四大主线并行的演讲模式,1个主会场、20个技术专场、超千人参与的会议规模,100+来自互联网、金融、制造业、电商等领域的嘉宾阵容,将为广大参会者提供一场最具价值的技术交流盛会。

限时8.5折扣期:2019年9月30日前


----------------------------------------

大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP