免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: 草上飞2008
打印 上一主题 下一主题

监控讨论:如何选择合适的运维监控工具?《互联网运营智慧》精彩试读 [复制链接]

论坛徽章:
0
111 [报告]
发表于 2010-10-25 13:37 |只看该作者
支持,希望早日能买到这本书。

论坛徽章:
0
112 [报告]
发表于 2010-10-25 13:38 |只看该作者
顶啊,快出来吧老田的书。。

论坛徽章:
0
113 [报告]
发表于 2010-10-25 13:45 |只看该作者
回复 110# sery


    我也没打算装的,但是好像cacti默认是不监控网卡流量的啊,看到这个功能需要安装插件所以才装那个补丁,打算装插件的

但是补丁总是提示我File to: 看补丁的README里面好像没提到这个问题,比较郁闷了

论坛徽章:
0
114 [报告]
发表于 2010-10-25 13:49 |只看该作者
回复 77# skylove


    这个比较强大,那样可以做到免费短信提醒

论坛徽章:
0
115 [报告]
发表于 2010-10-25 13:55 |只看该作者
大家有考虑使用另外一款监控软件不?偶的CME内网安全管理系统:wink:
还有,这个讨论会组织活动吗?什么时候,什么地点?

论坛徽章:
0
116 [报告]
发表于 2010-10-25 14:27 |只看该作者
{:3_189:} 顶一个。

论坛徽章:
0
117 [报告]
发表于 2010-10-25 15:40 |只看该作者
其实我在以前的公司做的监控系统就是用Nagios和cacti来做的,二次开发基本上没有
首先是nagios,nagios的功 ...
qingchn 发表于 2010-10-21 15:13



   

严重顶你!


建立合适的监控制度,监控梯队是相当重要的

论坛徽章:
0
118 [报告]
发表于 2010-10-25 15:47 |只看该作者
我也就我的一点经验谈一下现在很流行的监控和对监控的一点畅想吧!

1. nagios:
    优点:便宜,量又足的free监控系统,在小规模部署(单台主动监控服务<3000)一下很好用
             监控的系统设计很不错,基础监控的功能完备,插件扩展方便。
    缺点:扩展性能较差,横向扩展差,如果做成分布式的,通过简单的send_nsca做的话效率很低,需要自己开发master与distribution之间的通讯。
             不支持动态阀值,只能设置简单的静态阀值,没法做到趋势预警的功能,或者很难做,需要的改动太大。

2. cacti
    优点:部署简单的图形化监控系统。
    缺点: 升级困难,不向下兼容,需要手工修改N多,历史数据的导入导出麻烦。
              BUG很多。
              操作比较复杂,尤其在图形的叠加上操作很烦琐!
              snmp取值的脚本性能低下,监控点多的话,平均5分钟的php脚本执行不完,经常导致图形断断续续,采用spine后好点,效率高于php
              扩展困难,尤其是横向扩展,只能向上扩展,而且由于写rrd文件,在监控点多的情况下,会经常性遇到disk IO的瓶颈。

上述的只是系统内部的监控,如果需要做到内外兼顾,尤其是web的公司,必须考虑外部的性能监控。

3. 业务的外部监控。
    从外部监控,可以更好的反应网页的外部性能,对提升客户体验和及时发现页面问题有很大的帮助。现在国内的第3方的外部监控公司很多,这里就不列举了,以防有做广告的嫌疑。。。


对监控的展望:

1. 上述提到的nagios,cacti都是针对单个对象的监控,无法从更高的视角去展示。
2. 上述的监控工具都是写死的阀值,没法做到趋势预测以及阀值的动态调整。

所以,我个人对监控系统的展望如下:
一。 友好的监控系统已经是从用户的视角进行监控的展示!比如SA的视角与应用的视角肯定不一致,需要单独给用户设计展示界面
二。 监控的展示粒度应该是可配置的,也就是说,我可以根据需要配置我最细的展示粒度是集群 or 服务器 or 最细粒度的服务!
三。 监控的预警必须智能。阀值不能是简单的固定阀值,必须支持多阀值,或者阀值的动态调整,并且能从以往的历史记录中,通过算法,有趋势计算功能,结合业务的总容量来生成报警信息,这样的报警才更灵活,报警效率才会更高!




所以说:
   在设备规模较小(被监控的server<1000台规模)的情况下,用开源的nagios,cacti很好,在设备规模上去以后,开源的nagios和cacti在不做修改的情况下可以顶,但是较困难和繁琐。如果规模再上升,自己开发监控系统是必然的了。。。


希望以上对大家有帮助!

论坛徽章:
0
119 [报告]
发表于 2010-10-25 16:01 |只看该作者
回复 24# terrous


    nagios的误报,可以通过设置适当的重试次数来解决
    但是需要注意的是: 重试次数的增多就意味着你报警的延迟要增加,这需要一个权衡,在你可以认可的报警延迟的情况下设置恰当的重试次数。。

    我们这边之前设置的HTTP监控,检测间隔1分钟,重试的检测间隔10秒,重试4次,这样的话,1个HTTP的web监控,理论延迟40秒,还可以接受的。
   
    还有个重要参数: nagios的自身调度延迟!这个千万不要忽视!请重点关注下nagios的自身调度性能

论坛徽章:
0
120 [报告]
发表于 2010-10-25 16:03 |只看该作者
感觉现在绝大部分的监控都只停留在阈值报警和图形展示层面,大部分的监控文章主要也是介绍监控软件,很少能进行深入的讨论。

监控系统抓取的这么多的运行状态,如何充分的利用起来,如何发掘出各个状态之间的关联,如何通过这些关联分析出问题,这些都是监控需要深入去做的。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP