1 2 3 456 7 8 9 10 ... 2461491 / 2461491 页下一页

[使用帮助] 自动化运维技术讨论之----运维监控如何帮你提前发现故障（获奖名单已公布-2013-7-31） [复制链接]

Purple_Grape

丰衣足食

论坛徽章:: 5

41楼 [报告]

发表于 2013-07-13 15:46 |只看该作者

回复 39# T-Bagwell

我也没极限数据，手头机器不够多。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

kindule

白手起家

论坛徽章:: 0

42楼 [报告]

发表于 2013-07-13 19:50 |只看该作者

1. 在日常运维过程中是通过什么方式发现故障的？

发现故障是通过: a. 核心系统smokeping的声音告警和短信告警，
b. 全部系统zabbix的短信告警
前提：超详细的设备参数监控和异常数据判断标准

2. 针对目前使用的故障的预警和监控机制，您有哪些优化心得或建议，请分享一二？

故障预警的建议：
a.对异常数据趋势的预测判断
b.能够重启的设备定期重启测试是否正常

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zongg

巨富豪门

论坛徽章:: 21

43楼 [报告]

发表于 2013-07-15 16:01 |只看该作者

kooleon 发表于 2013-07-08 10:42
1，嗯，在日常运维中，我们这儿一般都是通过zabbix/cacti/smokeping和一些日常的运维脚本来发现故障的，也有 ...

zabbix的报警机制不怎么好使

感觉还可以啊。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ylky_2000

丰衣足食

论坛徽章:: 3

44楼 [报告]

发表于 2013-07-16 08:43 |只看该作者

本帖最后由 ylky_2000 于 2013-07-17 13:56 编辑

2013-07-16
跟进下。先留记录。
2013-07-17
1，分享您在日常运维过程中是通过什么方式发现故障的？
综合起来有3种常见方式：
1）监控系统自动报警机制；
这里我们采用的是cacti开源监控系统和华为网络监控软件，前者主要监控流量统计情况，后一者主要监控设备在线情况。
cacti：主要是自动采用邮件报警，当流量超过设定的阈值的时候会主动发一封邮件到指定的邮箱；
  华为网络监控软件：主要针对网络设备，监控平台会通过颜色的变化和声音提醒设备在线状况，有短信功能，不过短信网关的费用等问题，没有部署。
  电源方面：安装了一个语音报警系统，当市电断电，会自动拨打运维人员的手机号码，告知市电停止工作，一般ups的续航时间有限，根据停电时间的长短判断是否需要关闭部分非主要服务器或者设备，保证ups的更长续航时间。
2）主动巡检发现机制；
日常巡检：主要是利用cacti，提供一个guest用户到巡检人员，定期巡检设备状态。这个是日常的巡检结合手段之一；
周期巡检：现场巡检为主，除了看设备状态外，还检查温度、空调、电源等等情况。
3）被动等待客服反映机制。
公布运维的电话，有问题请客户及时反映。及时跟进处理。
2，针对目前使用的故障的预警和监控机制，您有哪些优化心得或建议，请分享一二？
   建议1：网络top发现功能，我所接触到的top发现功能，都是以网段为单位，这个跟我们想要的企业三层top架构有区别，希望能按照三层网络架构的方式生成top。
   建议2：日志功能，大部分包括开源网络监控系统对日志管理不怎么友好，对日志的呈现方面希望能更友好，如rsyslog还算可以，不过配置过程比较复杂。
报警策略方面：不友好，如短信报警，不停的发不停的发，浪费资源并过份骚扰运维人员，策略方面更优化点，报警1到2次就可以，恢复的时候再发一次就已经达到效果了。
建议4：提供开发接口，目前集成化是方向，太多的运维平台、运维系统，如果提供接口，可以将各类平台和系统统一在一个界面中管理，实现协同工作。
暂时这么多吧。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

gxsoc

白手起家

论坛徽章:: 0

45楼 [报告]

发表于 2013-07-16 10:03 |只看该作者

回复 10# wenhq

都是一些大家常用的东东，比如：nagios，mrtg，cacti，不过我们主要还是通过ossim系统来做了一些适合自己使用的一些开发功能，加上商业化的一些产品来完成我们的监控工作，

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

gxsoc

白手起家

论坛徽章:: 0

46楼 [报告]

发表于 2013-07-16 10:05 |只看该作者

回复 9# osapub

都是一些大家常用的东东，比如：nagios，mrtg，cacti，不过我们主要还是通过ossim系统来做了一些适合自己使用的一些开发功能，加上商业化的一些产品来完成我们的监控工作。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

mcyeah

稍有积蓄

论坛徽章:: 1

47楼 [报告]

发表于 2013-07-24 12:50 |只看该作者

1，分享您在日常运维过程中是通过什么方式发现故障的？
（1）对于物理上的故障，经过对机房进行监控、定期巡检再辅以软件监控来发现。
（2）对于业务逻辑实现的故障，需要一些监控软件和脚本常态化的对于网络、日志、资源使用等进行监控，发现问题即时报警，同时用户在使用过程的过程中也可以帮助反应一些问题。
软件使用nagios，脚本一般用Shell/perl/python来做。
2，针对目前使用的故障的预警和监控机制，您有哪些优化心得或建议，请分享一二？
（1）故障发现好做，故障预警就难做了，这方面可以结合一些数据挖掘的技术来进行，通过多方面的统计分析，预测可能存在的错误，然后重点检查加强。
（2）做好记录，通常有些问题可能重复发生，这样可以提高效率。
（3）监控软件的选择最好选择基于插件的，可多元化配置的，这样更有利于适应自己的需求和扩展。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Ucloud_Randy

白手起家

论坛徽章:: 0

48楼 [报告]

发表于 2013-07-24 17:55 |只看该作者

快结束了，分享一个Q群和很全的snmp MIB库的链接：
1、QQ群：92242469 这个群应该算是目前国内zabbix交流最大的Q群了，里面很多都是zabbix大规模部署的实践者，不过里面也有很多小白的提问。
2、使用snmp监控，免不了要查监控项的oid信息，这个地址里有很多MIB的库，想要检索的项目都可以找到http://www.telecomm.uh.edu/stats/rfc/

lol

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

rover12421

实习版主

论坛徽章:: 39

49楼 [报告]

发表于 2013-07-24 19:33 |只看该作者

1，分享您在日常运维过程中是通过什么方式发现故障的？
引用基本都是自己写脚本监控，监控端口，pid一类的，异常之后重启，发邮件，还有过短信同志。系统基本都是用云主机自带的监控
2，针对目前使用的故障的预警和监控机制，您有哪些优化心得或建议，请分享一二？
使用的一些云平台自带的监控还是比较详细的。监控需要及时通知，最好能做到短信通知，及时知道能把风险控制到最低

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

forgaoqiang

小富即安

论坛徽章:: 40

50楼 [报告]

发表于 2013-07-24 21:58 |只看该作者

本帖最后由 forgaoqiang 于 2013-07-24 22:05 编辑

1，分享您在日常运维过程中是通过什么方式发现故障的？
关键词：开源监控程序、SNMP、139免费短信邮箱、自定义模板
①当前使用的是开源的解决方案，还是经典的Nagios配合Cacti进行系统监控，主要依靠SNMP协议进行实时的状态信息查看，一旦发现重要的设备离线，立即发送报警邮件到移动的139邮箱，139邮箱都是绑定手机号码的，同时免费的短信就能到达。
当前使用的方案的好处就是成本极低（基本上没有任何的费用），而且程序开放程度非常高，可以自定义监控模板之类的操作，因此非常适合自定义企业使用。
②配合脚本程序进行监控，我们自己写了监控脚本，就是简单的bash脚本，配合crontab进行定期的汇报，上端自己简单做的是PHP+MySQL的结构，接受各种自定义的信息到数据库，并通过Web前端展示出来。

2，针对目前使用的故障的预警和监控机制，您有哪些优化心得或建议，请分享一二？
关键词：自身特点、自定义、故障预警、隐患而不是已经出现故障
最大的优化就是根据自己的需求，对开源的监控方案进行了修改定制，添加了自己的内容，以适合自身的使用。其实当前故障监控最大的问题在于没有足够的趋势分析，很多时候设备要出现问题都有明显的前期现象，这个就和IDS系统的特征库类似，一旦大量总结这些特征，并应用到自定义的特征匹配里面（比如流量、CPU使用、内存占用等等），就可以在设备出现故障之前就能发现问题，即使排除隐患，而不是等待设备除了问题才进行修复。

PS1:这里服务器Linux的机器居多，只有少量的windows server服务器，而且都是2003的（不知道多少企业能够跟上潮流，使用2008设置2012），windows主机没有太好的办法进行监控，另外交换机和路由器，虽然也在监控列表当中，但是都没有出现过故障，这些设备出故障的概率还是比较小的。

PS2：还有就是数据展示的问题，其实对于网管人员来说，数据的形式本身不是很重要，但是领导看不懂呀，因此需要使用nagois 这样的提供很绚丽的图表，这个虽然有些和主题无关，但是作为经验，这样做工作会被看好。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 2 3 456 7 8 9 10 ... 2461491 / 2461491 页下一页

返回列表

Chinaunix › 论坛 › IT运维 › 监控及自动化运维技术 › OSA开源监控 › 自动化运维技术讨论之----运维监控如何帮你提前发现故障 ...

[使用帮助] 自动化运维技术讨论之----运维监控如何帮你提前发现故障（获奖名单已公布-2013-7-31） [复制链接]

浏览过的版块