论坛徽章:: 5

41楼 [报告]

发表于 2013-07-12 20:54 |只看该作者

Purple_Grape 发表于 2013-07-09 11:46
提前发现故障，这点很难，大家都不是预言家，一般都是故障发生了才知道的。要提前发现，多靠部署时考虑周全 ...

能够说一下nagios大规模监控的性能的峰值呢？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Purple_Grape

丰衣足食

论坛徽章:: 5

42楼 [报告]

发表于 2013-07-13 15:46 |只看该作者

回复 39# T-Bagwell

我也没极限数据，手头机器不够多。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

kindule

白手起家

论坛徽章:: 0

43楼 [报告]

发表于 2013-07-13 19:50 |只看该作者

1. 在日常运维过程中是通过什么方式发现故障的？

发现故障是通过: a. 核心系统smokeping的声音告警和短信告警，
b. 全部系统zabbix的短信告警
前提：超详细的设备参数监控和异常数据判断标准

2. 针对目前使用的故障的预警和监控机制，您有哪些优化心得或建议，请分享一二？

故障预警的建议：
a.对异常数据趋势的预测判断
b.能够重启的设备定期重启测试是否正常

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zongg

巨富豪门

论坛徽章:: 21

44楼 [报告]

发表于 2013-07-15 16:01 |只看该作者

kooleon 发表于 2013-07-08 10:42
1，嗯，在日常运维中，我们这儿一般都是通过zabbix/cacti/smokeping和一些日常的运维脚本来发现故障的，也有 ...

zabbix的报警机制不怎么好使

感觉还可以啊。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ylky_2000

丰衣足食

论坛徽章:: 3

45楼 [报告]

发表于 2013-07-16 08:43 |只看该作者

本帖最后由 ylky_2000 于 2013-07-17 13:56 编辑

2013-07-16
跟进下。先留记录。
2013-07-17
1，分享您在日常运维过程中是通过什么方式发现故障的？
综合起来有3种常见方式：
1）监控系统自动报警机制；
这里我们采用的是cacti开源监控系统和华为网络监控软件，前者主要监控流量统计情况，后一者主要监控设备在线情况。
cacti：主要是自动采用邮件报警，当流量超过设定的阈值的时候会主动发一封邮件到指定的邮箱；
  华为网络监控软件：主要针对网络设备，监控平台会通过颜色的变化和声音提醒设备在线状况，有短信功能，不过短信网关的费用等问题，没有部署。
  电源方面：安装了一个语音报警系统，当市电断电，会自动拨打运维人员的手机号码，告知市电停止工作，一般ups的续航时间有限，根据停电时间的长短判断是否需要关闭部分非主要服务器或者设备，保证ups的更长续航时间。
2）主动巡检发现机制；
日常巡检：主要是利用cacti，提供一个guest用户到巡检人员，定期巡检设备状态。这个是日常的巡检结合手段之一；
周期巡检：现场巡检为主，除了看设备状态外，还检查温度、空调、电源等等情况。
3）被动等待客服反映机制。
公布运维的电话，有问题请客户及时反映。及时跟进处理。
2，针对目前使用的故障的预警和监控机制，您有哪些优化心得或建议，请分享一二？
   建议1：网络top发现功能，我所接触到的top发现功能，都是以网段为单位，这个跟我们想要的企业三层top架构有区别，希望能按照三层网络架构的方式生成top。
   建议2：日志功能，大部分包括开源网络监控系统对日志管理不怎么友好，对日志的呈现方面希望能更友好，如rsyslog还算可以，不过配置过程比较复杂。
报警策略方面：不友好，如短信报警，不停的发不停的发，浪费资源并过份骚扰运维人员，策略方面更优化点，报警1到2次就可以，恢复的时候再发一次就已经达到效果了。
建议4：提供开发接口，目前集成化是方向，太多的运维平台、运维系统，如果提供接口，可以将各类平台和系统统一在一个界面中管理，实现协同工作。
暂时这么多吧。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

gxsoc

白手起家

论坛徽章:: 0

46楼 [报告]

发表于 2013-07-16 10:03 |只看该作者

回复 10# wenhq

都是一些大家常用的东东，比如：nagios，mrtg，cacti，不过我们主要还是通过ossim系统来做了一些适合自己使用的一些开发功能，加上商业化的一些产品来完成我们的监控工作，

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

gxsoc

白手起家

论坛徽章:: 0

47楼 [报告]

发表于 2013-07-16 10:05 |只看该作者

回复 9# osapub

都是一些大家常用的东东，比如：nagios，mrtg，cacti，不过我们主要还是通过ossim系统来做了一些适合自己使用的一些开发功能，加上商业化的一些产品来完成我们的监控工作。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

mcyeah

稍有积蓄

论坛徽章:: 1

48楼 [报告]

发表于 2013-07-24 12:50 |只看该作者

1，分享您在日常运维过程中是通过什么方式发现故障的？
（1）对于物理上的故障，经过对机房进行监控、定期巡检再辅以软件监控来发现。
（2）对于业务逻辑实现的故障，需要一些监控软件和脚本常态化的对于网络、日志、资源使用等进行监控，发现问题即时报警，同时用户在使用过程的过程中也可以帮助反应一些问题。
软件使用nagios，脚本一般用Shell/perl/python来做。
2，针对目前使用的故障的预警和监控机制，您有哪些优化心得或建议，请分享一二？
（1）故障发现好做，故障预警就难做了，这方面可以结合一些数据挖掘的技术来进行，通过多方面的统计分析，预测可能存在的错误，然后重点检查加强。
（2）做好记录，通常有些问题可能重复发生，这样可以提高效率。
（3）监控软件的选择最好选择基于插件的，可多元化配置的，这样更有利于适应自己的需求和扩展。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Ucloud_Randy

白手起家

论坛徽章:: 0

49楼 [报告]

发表于 2013-07-24 17:55 |只看该作者

快结束了，分享一个Q群和很全的snmp MIB库的链接：
1、QQ群：92242469 这个群应该算是目前国内zabbix交流最大的Q群了，里面很多都是zabbix大规模部署的实践者，不过里面也有很多小白的提问。
2、使用snmp监控，免不了要查监控项的oid信息，这个地址里有很多MIB的库，想要检索的项目都可以找到http://www.telecomm.uh.edu/stats/rfc/

lol

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

rover12421

实习版主

论坛徽章:: 39

50楼 [报告]

发表于 2013-07-24 19:33 |只看该作者

1，分享您在日常运维过程中是通过什么方式发现故障的？
引用基本都是自己写脚本监控，监控端口，pid一类的，异常之后重启，发邮件，还有过短信同志。系统基本都是用云主机自带的监控
2，针对目前使用的故障的预警和监控机制，您有哪些优化心得或建议，请分享一二？
使用的一些云平台自带的监控还是比较详细的。监控需要及时通知，最好能做到短信通知，及时知道能把风险控制到最低

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 2 3 456 / 6 页下一页

返回列表

Chinaunix › 论坛 › IT运维 › 监控及自动化运维技术 › OSA开源监控 › 自动化运维技术讨论之----运维监控如何帮你提前发现故障 ...

[使用帮助] 自动化运维技术讨论之----运维监控如何帮你提前发现故障（获奖名单已公布-2013-7-31） [复制链接]

浏览过的版块