- 论坛徽章:
- 21
|
本帖最后由 zongg 于 2013-08-19 14:37 编辑
1,上述的各种监控工具的优缺点比较
答:从工作以来,我用过的监控系统有cacti,nagios,zabbix.下面我就说说他们。
cacti是用snmp协议来取数据,通过rrdtool来储存和更新数据(侟在rra下的文件里),并生成图。由此可见snmp和rrdtool是cacti的关键。
但是我们并不需要深入的了解rrdtool,和snmp ,我们是需要通过简单的配置就可以生成图像,我对于我们来说很方便(优点)。
rrdtool来处理数据效率高,多样性绘图,但是cacti监控的内容不多(缺点)。有一些插件还是不错的。我现在用的是monitor,mactrack,weathermap.
我们现在主要是用cacti来监控交换机上的流量。
nagios是一款很专业的监控软件,监控服务器状态很强大。但是配置起来复杂一些。能监控的应用层面(网络服务监控)的内容比cacti较多(优点),插件也非常多。这个赞一个。
nagios会调用插件去检测服务器状态,并把插件返回来的状态信息并进行处理后,把状态结果通过web显示出来。并根据状态实现告警。感觉报警机制要比cacti强。
图像看着没cacti好。(缺点) nagios客户端得安装NRPE. 说是支持400-500台机器的监控。我没试过,没有那么多的机器。- -
zabbix 分为zabbix server 和zabbix agent.也就是说客户端得安装agent.
缺点是支持多平台的监控软件,功能强大,监控灵活,报警灵活。
支持分布式。支持snmp,jmx,ipmi类型。自带画图功能,得到的数据可以绘成图形。全web管理。自带key,同时支持调用脚本。很方便。
缺点是批量修改不方便,中文资料少。画图没cacti好。官网说zabbix 支持5000台机器的监控。
2,您在使用何种监控工具和平台,监控到故障时的一些故障处理机制
答:我们现在用的是cacti+zabbix,感觉够用了,zabbix用起来比较灵活。
zabbix 可以根据自己的需求设置一些触发器,达到触发器的数值就会报警。
比如说,系统的平均负载,进程数,流量,tomcat jmx,dns 之类的都可以实现。
3,谈谈您在处理故障过程中的一些心得及将来的规划
答:故障一般的都是软件层面的,及时登陆到机器上看看是什么情况,大多数都可以解决。
将来的规划是现深入的学习zabbix,说实话,zabbix 真不错,真心推荐给大家。很灵活。
如果有机会再试试分布式。如果有运维研发,zabbix是一个好的选择进行二次开发。 |
|